文章链接:链接:
亮点直击 本文引见了Qwen系列大型视觉言语模型的最新成员:Qwen2-VL系列,该系列包括三款开明权重模型,总参数量区分为20亿、80亿和720亿。如图1所示,Qwen2-VL的关键停顿包括:
效果展现
总结速览
处置的疑问
Qwen2-VL系列旨在从新定义传统的固定分辨率视觉处置方法,处置了在处置不同分辨率图像时的效率和准确性疑问。
提出的打算
引入了“Naive Dynamic Resolution”机制,使模型能够灵活处置不同分辨率的图像,并生成不同数量的视觉tokens,从而优化视觉示意的效率和准确性。
运行的技术
到达的效果
Qwen2-VL系列在各类多模态基准测试中表现出色,特意是Qwen2-VL-72B模型,其性能与上游模型如GPT-4o和Claude3.5-Sonnet相当,逾越了其余通用模型。
方法
Qwen2-VL系列由三种大小的模型组成,区分为Qwen2-VL-2B、Qwen2-VL-7B和Qwen2-VL-72B。下表1列出了超参数和关键消息。Qwen2-VL在各种规模的LLM中驳回了675M参数的Vison Transformer(ViT),确保了ViT的计算负载在不同规模的LLM中坚持恒定。
模型架构
下图2展现了Qwen2-VL的片面结构。保管了Qwen-VL框架,该框架集成了视觉编码器和言语模型。
针对不同的规模适配,成功了一种具备大概675百万参数的ViT,能够处置图像和视频输入。在言语处置方面,选用了更弱小的Qwen2言语模型系列。为了进一步增强模型有效感知和了解视频中的视觉消息的才干,引入了几个关键更新:
便捷灵活分辨率 :Qwen2-VL的一项关键架构改良是引入了便捷灵活分辨率支持。与其前身不同,Qwen2-VL如今可以处置恣意分辨率的图像,灵活将其转换为可变数量的视觉tokens。为支持此配置,修正了ViT,去除了原始的相对位置嵌入,并引入了2D-RoPE,以捕捉图像的二维位置消息。
在推理阶段,不同分辨率的图像被打包成一个繁多序列,打包长度遭到控制,以限度GPU内存经常使用。此外,为缩小每幅图像的视觉tokens,在ViT后驳回了一个便捷的多层感知器(MLP)层,将相邻的2×2 token紧缩为一个token,并在紧缩的视觉tokens的扫尾和开头搁置不凡的<|vision_start|>和<|vision_end|> tokens。因此,分辨率为224×224的图像在经常使用patch_size=14的ViT编码后,将在进入LLM之前紧缩为66个tokens。
Multimodal rotary position embedding (M-RoPE) 另一个关键架构增强是Multimodal Rotary Position Embedding(M-RoPE)的翻新。与传统的1D-RoPE(用于LLM)仅能编码一维位置消息不同,M-RoPE有效地建模了多模态输入的位置消息。这经过将原始旋转embedding分解为三个组成局部:时期、高度和宽度成功。关于文本输入,这些组件经常使用相反的位置ID,使得M-RoPE在配置下同等于1D-RoPE。
在处置图像时,每个视觉token的时期ID坚持不变,而高度和宽度组件则依据token在图像中的位置调配不同的ID。关于视频,视为一系列帧,每帧的时期ID递增,而高度和宽度组件遵照与图像相反的ID调配形式。在输入蕴含多种模态的状况下,每种模态的位置编号经过将前一模态的最大位置ID加一来初始化。M-RoPE不只增强了位置消息的建模,还缩小了图像和视频的位置ID值,使模型在推理时能够推断更长的序列。
一致的图像与视频了解 Qwen2-VL驳回混合训练打算,结合图像和视频数据,确保在图像了解和视频了解方面的熟练度。为了尽或者完整地保管视频消息,以每秒两帧的频率采样每个视频。此外,将3D卷积与深度为二的卷积结合,以处置视频输入,使模型能够处置3D pipeline 而非2D块,从而在不参与序列长度的状况下处置更多视频帧。
为了坚持分歧性,每幅图像被视为两个相反的帧。为了平衡长视频处置的计算需求与全体训练效率,灵活调整每个视频帧的分辨率,将每个视频的总tokens数限度为16384。该训练方法在模型了解长视频的才干与训练效率之间取得了平衡。
训练
遵照Qwen-VL,驳回三阶段训练方法。在第一阶段,专一于训练ViT组件,应用少量图像-文本对优化大型言语模型(LLM)的语义了解。在第二阶段,解冻一切参数,经常使用更宽泛的数据启动更片面的学习。最后阶段,锁定ViT参数,专一于经常使用指令数据集启动LLM的微调。
模型在多样化的数据集上启动预训练,包括图像-文本对、光学字符识别(OCR)数据、交织的图像-文本文章、视觉问答数据集、视频对话和图像常识数据集。数据源关键来自清算过的网页、开源数据集和分解数据,数据截止日期为2023年6月。这种多样的数据组成对开展弱小的多模态了解才干至关关键。
在初始预训练阶段,Qwen2-VL接触到约6000亿个tokens。Qwen2-VL的LLM组件经常使用Qwen2中的参数初始化,而视觉编码器则基于DFN的ViT初始化。原DFN ViT中的固定位置embedding被RoPE-2D代替。此阶段关键学习图像-文本相关、经过OCR启动文本内容识别以及图像分类义务,为模型建设视觉-文本关联的扎实基础。
第二阶段的预训练标志着关键停顿,触及额外的8000亿个与图像相关的数据。此阶段引入了更多混合图像-文本内容,促成了对视觉和文本消息之间相互作用的更粗疏了解。视觉问答数据集的归入优化了模型对图像相关查问的照应才干,同时,多义务数据集的引入对模型同时处置多种义务的才干至关关键,这在处置复杂的事实环球数据集时尤为关键。纯文本数据继续在维持和提高模型言语才干方面施展关键作用。
在整个预训练阶段,Qwen2-VL处置了总计1.4万亿个tokens,包括文本tokens和图像tokens。但是,训练环节中仅对文本tokens提供监视。这种对宽泛而多样的言语和视觉场景的接触确保模型深化了解视觉和文本消息之间的复杂相关,从而为各种多模态义务奠定松软基础。
在指令微调阶段,驳回ChatML格局构建指令追随数据集。该数据集不只包括纯文本对话数据,还蕴含多模态对话数据。多模态组件包括图像问答、文档解析、多图像比拟、视频了解、视频流对话和基于代理的交互。对数据构建的综合方法旨在增强模型了解和执行各种模态下宽泛指令的才干。经过归入多样化的数据类型,宿愿开收回更具多样性和鲁棒性的言语模型,能够处置复杂的多模态义务,以及传统的基于文本的交互。
数据格局
与Qwen-VL分歧,Qwen2-VL也经常使用不凡tokens来区分视觉和文本输入。Tokens <|vision_start|>和<|vision_end|>拔出在图像特色序列的开局和完结,以划定图像内容。
对话数据 在对话格局方面,经常使用ChatML格局构建指令调优数据集,每个交互的陈说用两个不凡tokens(<|im_start|>和<|im_end|>),以便于对话的完结。蓝色tokens的局部示意受监视的局部。
视觉定位 为了赋予模型视觉定位才干,边界框坐标被规范化到[0, 1000)范围内,并示意为"(,), (,)"。Tokens <|box_start|>和<|box_end|>用于标志边界框文本。为了准确地将边界框与其文本形容咨询起来,引入了tokens <|object_ref_start|>和<|object_ref_end|>,以批示边界框所援用的内容,从而使模型能够有效地解释和生成特定区域的准确形容。
视觉Agent 为了将Qwen2-VL开展为通用的VL-Agent,将各种代理义务(如UI操作、机器人控制、游戏和导航)视为顺序决策疑问,使Qwen2-VL能够经过多步执行执行来成功义务。关于每个义务,首先定义一组可准许的举措和关键词形式(下划线)以供配置调用。而后,Qwen2-VL剖析观察结果,启动推理和布局,执行所选举措,并与环境互动以失掉新观察。这一循环重复启动,直到义务成功成功。经过整合各种工具并应用大型视觉言语模型(LVLM)的视觉感知才干,Qwen2-VL能够迭代执行触及事实环球视觉交互的日益复杂的义务。
多模态模型基础设备
Qwen2-VL模型在阿里云的PAI-Lingjun智能计算服务上启动训练,应用其可扩展的计算、智能复原和提前检测配置。
存储 经常使用阿里云的超高速CPFS(云并行文件存储)构建Qwen2-VL的预训练和后训练存储系统。将文本数据和视觉数据存储解耦。文本数据便捷地存储在CPFS上,并经常使用mmap启动高效访问。视觉数据经常使用阿里云的OSS(对象存储服务)启动耐久存储。在训练环节中,经过OSS的python-client并发访问视觉数据,并调整并发和重试参数以防止到达QPS(每秒查问次数)限度。视频数据解码是关键瓶颈,尤其是关于长视频。在几次尝试开源(FFmpeg开发者)和外部软件失败后,钻研者们选用了缓存解码技术。审核点保管每个GPU的优化器和模型形态在CPFS上。
并行性 经常使用3D并行性,结合数据并行性(DP)、张量并行性(TP)和 pipeline 并行性(PP)来扩展Qwen2-VL模型训练。还应用DeepSpeed的zero-1冗余优化器启动形态分片以节俭内存。经常使用选用性审核点激活的序列并行性(SP)以缩小内存经常使用。当启用TP训练时,总是将视觉编码器和大型言语模型一同分片,但不对视觉兼并启动分片,由于其参数相对较少。咱们发现TP训练会造成不同的模型共享权重,这是由于卷积操作的非确定性行为。咱们经过对共享权重启动离线缩小处置了这个疑问,从而防止了额外的全归约通讯步骤。这种方法对性能的影响十分小。
钻研者们应用1F1B PP启动Qwen2-VL 72B的训练。咱们将视觉编码器、视觉适配器和几个LLM的解码器层组合为一个阶段,并平均宰割残余的解码器层。请留意,视觉和文本序列长度关于每个数据点都是灵活的。在启动1F1B环节之前广播灵活序列长度,并经常使用批索引访问形态消息。还成功了交织的1F1B PP,但发现其速度比规范1F1B设置慢。
软件 经常使用PyTorch版本2.1.2与CUDA 11.8启动训练。此外,在视觉编码器和LLM的训练中应用闪存留意力以提高效率。还应用了融合操作符,如LayerNorm、RMSNorm和Adam。此外,在训练环节中应用矩阵乘法中的通讯与计算堆叠。
试验
与现有技术的比拟
经过各种视觉基准、视频义务和基于代理的评价来评价咱们模型的视觉才干。Qwen2-VL在相反规模下表现出高度竞争力,取得了新的最先进(SoTA)结果。72B模型在大少数评价目的上一直提供顶尖性能,经常逾越闭源模型,如GPT-4o和Claude 3.5-Sonnet。在文档了解义务中,它表现出清楚长处。但是,在MMM基准中,本文的模型在处置更复杂和具备应战性的疑问集时依然落后于GPT-4o,标明Qwen2-VL-72B还有改良的空间。
定量结果
对Qwen2-VL系列在多种数据集上的宽泛评价启动展现,提供对模型在各方面才干的片面了解。
普通视觉问答
为了严厉评价本文模型在普通视觉问答义务中的才干,钻研者们在多种最先进的基准上启动了宽泛评价:RealWorldQA、MMStar、MMVet、MMT-Bench、MMBench、MMbench-1.1、MME和HallusionBench。
Qwen2-VL系列在这些基准上表现出色,72B模型一中转到或超越最先进的结果,而7B和2B变体也表现出弱小的才干。在评价实在环球空间了解的RealWorldQA上,Qwen2-VL-72B的得分为77.8,超越了之前的最先进(72.2)和强有力的基线,如GPT-4o(75.4),展现了其对物理环境的优越了解。
在评价真正多模态才干的MMStar基准中,Qwen2-VL-72B取得68.3,逾越了之前的最佳效果67.1,突显了其在视觉和文本消息整合方面的才干。在MMVet上,Qwen2-VL-72B在16个复杂多模态义务中表现出色,取得了74.0,清楚超越微弱的竞争对手,包括GPT-4V(67.5),展现了其在应答多样化多模态应战中的多配置性。
在评价先进推理和指令追随的MMT-Bench中,Qwen2-VL-72B取得71.7,清楚超越之前的最佳(63.4),展现了其在运行专业常识和执行视觉识别、定位、推理及布局方面的才干。在评价细粒度才干的MMBench中,Qwen2-VL-72B在英语测试集上取得86.5,婚配了最先进的水平,而在中文测试集上取得86.6,创下新基准。关于测量14个子义务中宽泛感知和认知才干的MME,Qwen2-VL-72B取得累计得分2482.7,清楚超越之前的最佳(2414.7),突显了其在视觉感知和初级认知义务中的先进才干。
这些综合结果突显了Qwen2-VL系列在普通视觉问答义务中的出色才干。模型在实在环球空间了解、真正多模态整合、复杂推理、指令追随以及宽泛的感知和认知义务方面展现出先进才干。特意是72B模型在多种基准上继续表现优越,使Qwen2-VL系列成为视觉问答畛域的上游处置打算。咱们的模型在处置视觉无法或缺的义务、整合**视觉-言语才干以及在多样化多模态场景中展现专业常识方面表现出色,涵盖从基础感知义务到复杂推理和布局的宽泛才干。这一片面评价强调了Qwen2-VL系列在应答最先进多模态基准所带来的多面应战中的多配置性和有效性,从而为大型视觉-言语模型设立了新的规范。
文档和图表阅读
在DocVQA、ChartQA、InfoVQA、TextVQA和AI2D数据集上测试了模型的OCR以及文档和图表了解才干。DocVQA/InfoVQA/ChartQA数据集并重于模型了解文档、高分辨率消息图表和图表中的文天性力,而TextVQA数据集调查了模型了解人造图像中文本的才干。
OCRBench数据集是一个混合义务的数据集,除了基于文本的视觉问答外,还关注数学公式解析和消息提取。AI2D数据集并重于迷信图表中蕴含文本的多项选用题。还在OCRBench上测试了模型的OCR和公式识别才干,以及在MTVQA数据集上测试了模型的多言语OCR才干。
试验结果标明,本文的模型在多个目的上到达了最先进水平,包括DocVQA、InfoVQA、TextVQA和OCRBench,展现了模型对多个畛域图像中文本内容的良好了解才干。
多言语文本识别与了解
在多言语OCR方面,本文的模型逾越了一切现有的通用LVLM。本文的模型不只在地下的MTVQA数据集上优于现有的LVLM(包括诸如GPT-4o、Claude 3.5 Sonnet等专有模型),还在外部基准测试中在除阿拉伯语外的一切外语上逾越了GPT-4o(见下表3)。
数学推理
在MathVista和MathVision数据集上启动了试验,以评价数学推理才干。MathVista是一个综合基准,蕴含6,141个多样的数学和视觉义务示例。MathVision数据集包括3,040个embeddings在实践数学比赛中的视觉背景下的数学识题,涵盖16个数学学科,并在五个级别上具备不同的难度。这些应战强调了LVLM展现弱小视觉了解、深入数学了解和良好逻辑推理才干的必要性。Qwen2-VL系列在MathVista上表现出色,取得70.5的效果,逾越了其余LVLM。此外,它在MathVision上设定了新的开源基准,得分为25.9。
参照表白了解
在视觉定位义务方面,在RefCOCO、RefCOCO+和RefCOCOg数据集上评价了Qwen2-VL。结果如下表6所示,标明Qwen2-VL在通用模型中取得了顶级结果。得益于更正当的结构设计,Qwen2-VL能够感知高分辨率图像中的细节,从而清楚提高了性能。与通用和公用模型相比,这些模型的优越性突显了它们在推动视觉定位畛域和实践义务中成功准确视觉了解的后劲。
视频了解
在各种视频了解义务上也评价了本文的模型,相关基准笼罩从几秒到长达一小时的视频。下表4展现了Qwen2-VL及基线模型的性能。总体而言,Qwen2-VL在2B、7B和72B尺寸上表现微弱,其中Qwen2-VL-72B在MVBench、PerceptionTest和EgoSchema上取得了最佳性能。这展现了Qwen2-VL在视频了解义务中的优越才干,并且扩展Qwen2-VL的规模带来了清楚的优化。关于具备应战性的Video-MME基准,该基准包括最长可达一小时的视频,值得留意的是,咱们在评价环节中将每个视频提取的最大帧数限度为768,这或者影响了在较长视频上的表现。未来的上班将集中在扩展Qwen2-VL以支持更长的序列,从而顺应更长的视频。
视觉智能体
首先评价Qwen2-VL在经过函数调用与环境互动的才干,而后评价其经过多轮交互成功复杂决策义务的才干。该成功基于Qwen-Agent框架。
函数调用 与LLM中的函数调用不同,LVLM中的函数调用理论触及从视觉线索中提敞开息。由于不足评价LVLM在函数调用才干方面的公共基准,咱们构建了外部评价数据集。
为构建评价数据集,启动了以下程序:场景分类、图像搜集、图像内容提取,以及疑问/函数/参数生成。首先,咱们依据不同的视觉运即将场景分类。随后,从互联网高低载并精心选用每个类别的高品质代表性图像。应用先进的LVLM,剖析每张图像以提取关键视觉元素和文本消息。最后,基于图像的内容消息,经常使用先进的LLM生成一系列须要特定函数回答的疑问,并指定这些函数调用所需的输入参数。
钻研者们设计了两种目的来评价函数选用的准确性和参数输入的正确性:类型婚配(Type Match,TM)和准确婚配(Exact Match,EM)。
下表5所示,Qwen2-VL在Type Match(93.1对90.2)和Exact Match(53.2对50.0)上的表现优于GPT-4o,这证实了Qwen2-VL在函数调用才干上的有效性,凸显了其经过外部工具集成扩展运行的清楚后劲。评价结果标明,GPT-4o的表现不佳,关键由于两个起因:在不确定性场景中,GPT-4o表现出激进的态度,防止经常使用外部工具。此外,Qwen2-VL在光学字符识别(OCR)才干方面也优于GPT-4o,尤其是在中文字符的处置上。
用户界面操作/游戏/机器人/导航 为了评价Qwen2-VL处置复杂义务的才干,在多个视觉言语代理义务上启动了评价,包括移动操作、机器人控制、纸牌游戏和视觉言语导航等。由于这些义务须要屡次执行才干成功,经过Qwen2-VL支持32K高低文长度来保管历史(观察、举措),而后在每次执行后附加新的观察图像,以成功对后续步骤的延续推理。
用户界面操作 经常使用AITZ义务评价Qwen2-VL,该义务构建了一个基于AITW的**洁净测试集。依据手机的经常出现操作形式,为Qwen2-VL定义了诸如点击、输入和滑动等操作,以便其与屏幕图标启动交互以成功义务。例如,当Qwen2-VL被要求经过Google地图寻觅左近的披萨餐厅时,它应在搜查框中输入“pizza”,滑动选用适当的餐厅,并点击对应的链接。依据AITZ设置,报告了操作类型婚配(点击、输入或滑动的正确性)和准确婚配(点击位置、输入文本或滑动方向的正确性)。借助于用户界面的基础才干,Qwen2-VL逾越了GPT-4和之前的最新技术水平。
机器人控制 在AI2THOR的ALFRED义务中评价Qwen2-VL。该义务要求智能体执行复杂的家庭义务,例如烤面包和切苹果以预备餐点。为了在虚构环境中上班,定义了上档次的举措(GotoLocation、Pickup、PutDown、Open、Close、Clean、Heat、Cool、Slice)作为举措集。此外,智能体须要定位可操作的物体(例如,只要在识别到苹果时才干拾取它)。为提高操作准确性,整合了SAM。ALFRED义务报告义务成功率(SR)(例如,预备晚餐)和子目的成功率(GC)(例如,面包能否被烤熟或苹果能否被切)。
纸牌游戏 应用来自RL4VLM的纸牌游戏环境来评价Qwen2-VL在一系列纸牌游戏中的表现:Number Line、BlackJack、EZPoint和Point24。每个游戏提出了不同的应战:
报告义务的成功率,这不只评价了智能体的才干,还须要弱小的OCR技艺来识别这些牌并了解游戏进程。Qwen2-VL在一切义务中表现优越。
视觉言语导航 在视觉言语导航(VLN)义务中评价Qwen2-VL,经常使用R2R和REVERIE。在VLN中,模型必定依据指令和观察自主确定下一个位置。咱们报告该义务中抵达预约目的地的成功率(SR)。Qwen2-VL的表现与GPT-4o相当,但两者都清楚落后于专门的VLN模型。将这一差距归因于模型从多个图像生成的不完整和非结构化的地图消息。在三维环境中准确建模地图和位置依然是多模态模型面临的严重应战。
消融钻研
本节展现了关于图像灵活分辨率、M-RoPE和模型规模的消融钻研。这些试验旨在提供这些关键组件对模型性能影响的深化见地。
灵活分辨率
如下表7所示,比拟了灵活分辨率与固定分辨率的性能。在固定分辨率下,调整图像大小,以确保输入到模型的图像tokens数量坚持恒定,而不是调整到特定的高度和宽度,由于这会歪曲原始宽高比。在灵活分辨率中,咱们仅设置了min_pixels=100 × 28 × 28和max_pixels=16384 × 28 × 28,准许图像tokens的数量关键依赖于图像的原始分辨率。可以观察到,调整图像大小仅造成性能的小幅动摇,标明模型对不同图像大小的鲁棒性。此外,灵活分辨率的方法效率更高。咱们发现没有繁多固定分辨率在一切基准测试中都能到达最佳性能。相比之下,灵活分辨率方法在平均消耗更少tokens的状况下,一直成功顶级性能。
单纯参与图像大小并不总是造成性能的优化。选用适当的分辨率对不同图像更为关键。如下图4所示,将小图像加大到超越指定的min_pixels阈值。对加大图像的评价显示,在InfoVQA、HallusionBench和OCRBench等感知义务上性能增强。咱们将这些增益归因于参与的计算负载。但是,关于OCRBench,过高的min_pixels值造成严重的性能降低。这或者是由于OCRBench蕴含许多极小的图像,适度加大会使这些图像偏离训练数据散布,变成超出散布的样本。相反,参与min_pixels对MMMU基准的影响微不足道。咱们假定MMMU的性能瓶颈与模型的推理才干相关更大,而非图像分辨率。
本节展现了M-RoPE的有效性。首先,验证其在各种下游义务中的才干。驳回Qwen2-1.5B和ViT-L作为基础,并报告预训练模型的结果。如下表8所示,与1D-RoPE相比,经常使用M-RoPE在下游义务中表现更佳,特意是在视频基准测试中。
此外,在Video-MME中等长度视频上评价了M-RoPE的长度外推才干。下图5展现了Qwen2-VL-72B在不同推理长度下的性能。应用M-RoPE,模型在各种推理长度下表现持重。值得留意的是,虽然在训练时期每个视频的最大tokens限度为16K,但模型在最大推理长度到达80K tokens时仍表现出色。
模型规模
评价了不同规模模型在多个才干维度上的表现。详细而言,将这些维度分类为复杂的大学水平疑问处置才干、数学才干、文档和表格了解、普通场景问答以及视频了解。经过对与每个维度相关的不同基准测试的得分启动平均,咱们评价了模型的全体才干。
详细来说, 经常使用MMMU基准来示意大学水平的疑问处置才干,同时,MathVista和MathVision的平均得分作为数学才干的目的。关于普通场景问答,计算RealWorldQA、MMBench-V1.1、MMT-Bench、HallBench、MMVet和MMStar基准的平均得分。
文档和表格了解才干经过DocVQA、InfoVQA、ChartQA、TextVQA、OCRBench和MTVQA基准的平均得分表现。最后,视频了解才干经过MVBench、Perception-Test、EgoSchema和Video-MME的平均得分启动测量。
如下图6(a)所示,随着模型规模的参与,性能出现出分歧的优化,特意是在数学才干方面,这与模型参数的数量呈正相关。另一方面,关于光学字符识别(OCR)相关义务,即使是小规模模型的表现也相对微弱。
如上图6(b)所示,咱们可视化了Qwen2-VL-7B在预训练第二阶段中模型性能与训练tokens数量之间的相关。随着训练tokens数量的参与,模型性能有所优化;但是,在视觉问答(VQA)义务上,性能却表现出必定动摇。相比之下,关于AI2D和InfoVQA等义务,这些义务触及了解图像中的文本和图形消息,随着训练数据的参与,模型性能稳步优化。
论断
本文引见了Qwen2-VL系列,这是多配置的大型视觉言语模型,包括三个开明权重模型,参数总量区分为20亿、80亿和720亿。Qwen2-VL在多种多模态场景中的表现与顶尖模型如GPT-4o和Claude3.5-Sonnet相婚配,逾越了一切其余开明权重的LVLM模型。Qwen2-VL系列引入了便捷的灵活分辨率和Multimodal rotary position embedding (M-RoPE),有效融合跨模态消息,并能够了解超越20分钟长度的视频。仰仗先进的推理和决策才干,Qwen2-VL可以与移动设备、机器人等设备集成。此外,Qwen2-VL现已支持了解图像中的多言语文本,包括大少数欧洲言语、日语、韩语、阿拉伯语、越南语等。
目前已将Qwen2-VL模型权重开明失掉,准许钻研人员和开发者在各种运行和钻研名目中充沛应用其后劲。咱们努力于推动人工智能技术,增强其对社会的踊跃影响。
本文转自AI生成未来,作者:
原文链接: