作者 | Ignacio de Gregorio
编译 | 岳扬
虽然 AGI 或者不会很快出现,但大言语模型确实正经过一种名为“多模态”的方式迎来改造。这一停顿使前沿模型从繁多的文字处置模型退化为能够同时处置多种数据类型的全能模型,即所谓的多模态大言语模型(MLLMs)。
当下,诸如 ChatGPT、Gemini、Claude 等许多模型,已不再局限于大言语模型(LLMs)范围,而是更新为多模态大言语模型(MLLMs),由于它们具有处置文本、图像的才干,甚至局部状况下还能处置视频。
但是,在进一步讨论之前,咱们有必要思索: 咱们为什么须要多模态模型?
01 为何咱们须要多模态?
理想状况下,环球上的万事万物都能以文字的方式出现,如此一来,咱们似乎仅凭大言语模型(LLMs)就能成功一切义务。但是,理想很丰满,理想很骨感—— 数据外形远不止文字一种,大少数数据也不是以文本的方式出现的,咱们日常接触到的数据涵盖了图像、视频、音频、语音(images or video, audio, speech)等多种外形,方式丰盛多元。
理想上,经常使用 AI 处置那些最具应战性的疑问时,恰好须要依赖多模态的处置才干。
试想一下,当咱们经常使用虚构助手(virtual assistant)时,或者宿愿它能识别并解答手部新出现的划痕或炎症疑问;或是当咱们在亚洲游览途中偶遇一道生疏美食,等候它能活泼形容这道佳肴的详细细节。
source:
那么,终究如何才干搭建出一个多模态大言语模型(MLLM)呢?
02 深化解析多模态模型架构
简而言之,目前大少数多模态大言语模型(MLLMs)的**构成包括两大局部:大言语模型(LLM)及另一种模态的编码器。让咱们逐渐揭开其奥秘面纱。
2.1 大言语模型(LLMs),AI 畛域的中流砥柱
LLMs 这类模型属于 sequence-to-sequence 架构,其上班原理为接纳文本输入,而后输入统计学上最有或者的后续序列。
换言之,它们经过一直预测下一个词汇,生成流利且文采斐然的文本。自 2022 年 ChatGPT 颁布以来,大言语模型迅速成为了环球逾 2 亿用户手中的消费劲利器,同名运行程序也一举创下了史上增长速度最快的 C 端运行记载。
尤其值得一提的是,它们出色的模拟逻辑推理(imitate reasoning)和激起翻新思想(enhance creative processes)的才干,激起了业界关于是否将此类系统作为基础架构,运行于更为复杂多变、不局限纯文本处置场景的宽泛讨论。
但是,要成功这一指标,还需引入一个关键的辅佐模块。
2.2 编码器:衔接至少元数据环球的桥梁
大言语模型(LLMs)关键处置文本 (在某些状况下也会处置代码,因其与自然言语有相似的性质)。因此, 要处置图像甚至视频等其余数据类型,模型需引入另一个新部件 —— 编码器(encoder)。
其要素在于,LLMs 属于纯解码器架构的 Transformer,象征着它们会采用一种不凡手法来对数据启动编码。
但,“对数据启动编码”是什么意思呢?
无论处置的是文本里的字词(words)或是图像中的像素点(pixels),对输入序列启动编码的**理想是将其转化为一系列数字,即所谓的向量嵌入(vector embeddings)。这种向量方式的表征(representation),能够捕捉输入序列的语义消息。
特意是 LLMs 领有 embedding look-up matrices(译者注:就像是一个渺小的字典,每个词汇对应着一个在高维空间中的向量表征。例如,假定有一个蕴含 10000 个词汇的词汇表,每个词汇都有一个 50 维的向量表征,那么这个 embedding look-up matrices 就会是一个 10000 行、50 列的矩阵。每一行对应词汇表中的一个词,存储了该词的 50 维向量。在模型处置文本时,它会依据输入内容的词汇索引在这个矩阵中查找相应的向量,作为该词的嵌入表征。)。这些矩阵的作用是从输入序列的令牌中,提取出对应的词嵌入。换言之,模型在训练阶段会学习如何将输入的词(或tokems)转换为向量表征(即嵌入),这一环节是经过提升模型参数成功的,在推理阶段,当新的输入序列传入模型时,模型会间接经常使用已学习到的参数来发生相应的嵌入向量,而不须要再教训一个独自的、显式的编码步骤。
这是一种经济高效的数据编码方式,无需每次处置都启动编码网络(encoder network)。
对数据启动编码(Encoding>
source:
但就 MLLMs 而言,嵌入是 “浓密(dense)” 的,这象征着,理想生活中相近的概念在向量空间中也会领有相近的向量表征,包括向量的大小和方向,反之亦然:
source:
为了达成指标,咱们须要编码器 —— 一种基于 Transformer 设计的工具,它的义务是接纳各种输入数据,并奇妙地将其转化为向量嵌入。举个例子,当编码器面对的是图像时,它能够将图像消息转换为“图像嵌入(image embedding)”方式。
不论处置的是何种数据模态,咱们的指标一直分歧:构建出一个向量空间,在这里,理想中意义相近的概念会被映射为凑近的向量,而意义悬殊的概念则会转化成相距甚远的向量。 经过这种方式,咱们把对环球语义的了解转变成了一项数学识题;向量间的距离越短,象征着它们代表的概念含意越凑近。
最关键的是,这种处置方法并不局限于文本畛域,图像等其余数据模态也雷同实用,这正是其共同魅力所在。
Encoding images. Image generated by author
但关于图像来说,事件就变得辣手了。
咱们不只宿愿图像的嵌入环节(image embedding)能将相似的图像(比如哈士奇的图像)归类到相似的向量类别中,而且还宿愿这些向量与同一图像的文字形容也坚持相似性。例如,如下图所示,一幅描画波浪的图像和一段形容相反场景的文本,虽然来自不同的模态,但应该具有相似的向量嵌入。
为了到达这一目的,OpenAI 等试验室开发了像 CLIP 这样的模型,这些模型创立了 mixed embedding spaces(译者注:在 mixed embedding spaces 中,不同模态的输入数据经过特定的编码器映射到同一贯量空间内,这样即使数据的原始模态不同,也可以基于其外在的语义相似性启动比拟。),在这个向量空间中,形容语义(text describing semantically)上概念相似的图像和文本会被赋予相似的向量,从而成功了跨模态的语义分歧性。
source:
由于 CLIP 这类模型的出现,当初的机器曾经具有了处置图像并洞察其含意的才干。
Masked AutoEncoders(MAEs)是另一种训练图像编码器(image encoders)的干流方法。在这种状况下,模型接纳到的是一幅局部消息被覆盖的图像,模型须要重建完整图像。这些编码器之所以弱小,是由于它们必定学会从完整的消息中推断出“遮挡之下”的假相(what’s hiding behind the masked parts),即识别出“被暗藏的局部”是什么(what’s missing)。
不过,关于多模态言语模型(MLLMs)而言,CLIP 编码器的运行更为宽泛,关键是由于其与文本处置之间存在着自然的咨询。
但是,假设咱们宿愿建设一个像 ChatGPT 那样,能够同时处置图像和文本的模型,咱们又该如何着手搭建这样一个系统呢?
03 多模态系统的关键类型
创立多模态系统关键有三种方法。
3.1 从经过工具成功多模态系统到真正的多模态大言语模型(MLLM)
有三类方法构建 MLLM 系统,但仅两类可称得上是真正的多模态大言语模型。
咱们或者还可以思索另一种方法,那就是在不经常使用 separate encoder(译者注:在多模态或多义务学习架构中独立处置不同类型输入数据的编码器。) 的状况下构建MLLM,Adept 的 MLLMs 就属于这种状况。不过,经常使用这种方法构建的多模态模型相当稀有。
不论是选用第二种还是第三种打算(再次强调一次性,第一种打算其实并非纯正的 MLLM 模型,而是一套 MLLM 系统),它们的上班原理是什么呢?
3.2 The MLLM pipeline
咱们将重点讨论最经常出现的 MLLM 打算(即联合图像编码器(image encoder)和 LLMs 的第二种打算)构建能同时处置图像与文本的多模态模型。有一点须要在此强调, 这种打算只需改换编码器,也能处置其余模态的数据,比如经常使用音频编码器处置音频信号。 LLMs 因其具有与用户交换及在某些特定情景下处置复杂疑问的才干,一直是无法或缺的组成局部。
向 MLLM 输入数据,理论遵照两种形式:
以 Sphinx 为例,这是一个开源的多模态 LLM,让咱们以此为参照。
source:
此时,会有两种状况出现。假设采用的是先区分预训练图像编码器和 LLM,后续再联合的方法,普通会经常使用一个适配器(adapter),将图像嵌入转化为与 LLM 嵌入空间相婚配的方式。而假设经常使用的是通用方法,图像编码器在设计之初就已具有为 LLM 生成有效嵌入的才干。
04 Final Thoughts
多模态大言语模型(Multimodal Large Language Models,简称 MLLMs)是生成式人工自动最先进技术的关键组成局部。MLLMs 仰仗繁多模型即可成功多种模态数据的处置,开启了以前只能构想的许多前景宽广的运行场景。
多模态也拉近了机器与人类的距离,由于人类生来就是经过多种感官成功多模态的。所以,机器迟早会模拟人类的这一个性。
在谋求构建通用人工自动(Artificial General Intelligence,简称 AGI)或超人工自动(Artificial Super Intelligence,简称 ASI)的环节中,多模态起着至关关键的作用。由于人类之所以能够成为当天的自动动物,很大水平上归功于咱们具有处置和了解多种模态数据的才干,这让咱们能够顺应并驾驭周遭的生活环境。
因此,多模态关于机器人而言是进入物理环球的关键要素,它使得机器能够像人类一样观察、感知、倾听并和咱们所处的物理环球启动互动。
Thanks for reading!
Ignacio de Gregorio
I break down frontier AI systems in easy-to-understand language for you. Sign up to my newsletter here:
原文链接: