多模态AI的运行范围正在始终扩展,那么终究什么是多模态AI?它又是如何运转的?
生成式AI在短短几年内取得了长足的提高,从基本的文本照应开展到复杂的散文。随着多模态AI(Multi-modal AI)的开展,这项技术的界限正在进一步扩展。如今,多模态AI正在涉足从医疗保健到机器人等多个行业。谷歌、OpenAI、Anthropic和Meta等科技巨头也纷繁推出了自己的多模态AI模型。
什么是多模态AI?
多模态AI是指同时应用各种类型(或形式)数据构成见地、做出预测和生成内容的AI系统。
多模态模型能够解决文本、图像、视频、语音等消息,以成功一系列义务,例如依据食物照片生成食谱,或是将音频剪辑翻译成多种言语等。
这与大少数只能解决繁多形式数据的AI模型不同。例如,大型言语模型(LLM)只能解决文本数据,而卷积神经网络(CNN)只能解决图像。
便捷来说,多模态实践上是在尝试复制人类的感知方式:咱们将视觉、声响和触觉等感官输入联合起来,构成对事实的更粗疏入微的感知,并应用这些数据来做出选择或采取执行。多模态形式也在尝试做雷同的事情。经过在单个模型中集成多种数据类型,多模态AI系统可以更片面地了解其环境。
多模态VS单模态
多模态AI模型可以同时解决多种类型的数据,而单模态AI模型仅限于繁多类型的数据输入,并且只能以特定的数据模态提供输入。例如,支持ChatGPT收费版本的GPT-3.5只支持文本输入和输入,它就属于单模态;但另一款ChatGPT模型GPT- 40可以解决文本、图像和音频数据,它就属于多模态。
多模态AI运转原理
多模态模型通常建设在转换器(Transformer)架构上,经过计算数据点之间的相关,以了解和生成数据序列。它们解决“少量”的文本数据,删除一些单词,而后依据周围单词的高低文预测缺失的单词是什么。关于图像、音频和模型设计用来了解的任何其余类型的数据,亦是如此操作。
这是经过一个称为“嵌入”(Embedding)的环节来成功的,在这个环节中,原始数据被编码成系统更容易了解和解决的数字格局(向量)。例如,文本数据被合成成独自的标志(单词、字母等),这些标志被转换成数字。音频数据被宰割并合成为音高和振幅等特色,这些特色也被转化为数字。而后将一切这些数字输入到转换器中,转换器捕捉不同模态外部和之间的相关和高低文。
在少数状况下,模型是“原生多模态”的——专门为解决多种数据类型而构建的——Embedding经过一个称为“早期融合”(Early Fusion)的环节同时出现,该环节未来自每种模态的原始数据组合、对齐和解决,使它们都具备相反(或相似)的数学示意。例如,这个模型不只学会了“鸭子”这个词,还学会了鸭子的样子和声响。从通常上讲,这使得该模型不只能够识别鸭子的照片、鸭子的嘎嘎声或字母“D-U-C-K”,而且还能识别鸭子是什么这一更宽泛的“概念”。
但是,这种方法的成功并不容易,这就是为什么目前存在的许多多模态系统都须要在前期经过一个称为“前期融合”(Late Fusion)——即在每种类型的数据区分启动剖析和编码之后——的环节兼并来自多个模态的消息。前期融合提供了一种联合和比拟不同类型数据的方法,这些数据在各自的方式中外观、大小和含意各不相反。
在开收回多模态模型后,经常使用带有人类反应的强化学习(RLHF)和红队等技术对其结果启动微调,以缩小幻觉、成见、安保风险和其余有害反响。一旦成功,该模型的行为应该相似于LLM,但具备解决文本以外的其余类型数据的才干。
多模态AI用例
以下是如今多模态AI运行的一些关键畛域。
聊天机器人
装备多模态的AI聊天机器人可以比纯文本聊天机器人更有效地响运行户,提供更丰盛、更有用的答案。例如,用户可以输入一张垂死的室内植物的照片,并取得如何使其妙手回春的倡导,或许取得他们链接到的视频的具体解释。
AI助手
像亚马逊的Alexa和谷歌助手这样的AI助手之所以存在,是由于多模态AI。这些智能设备可以经过便捷的语音命令启动控制,准许用户调出特定的图像和视频,接纳事情、指令和普通消息(音频和文本格局),甚至调整家中的照明和温度。
医疗保健
医疗畛域须要解释几种方式的数据,包含医学图像、临床记载、电子肥壮记载和试验室测试。单模态AI模型在特定形式下执行特定的医疗保健义务,例如剖析X射线或识别遗传变异。LLM通常被用来协助用便捷的术语回答与肥壮相关的疑问。如今,钻研人员开局将多模态AI引入其中,开发新的工具,未来自一切这些不同起源的数据联合起来,协助启动医学诊断。
智能驾驶汽车
由于多模态AI,智能驾驶汽车可以解决和解释来自多个起源的数据。摄像头提供有关车辆环境的视觉消息,雷达探测物体及其速度,而激光雷达测量物体之间的距离,GPS提供位置和导航数据。经过将一切这些数据放在一同并启动剖析,AI模型可以实时了解汽车周围的环境并做出相应的反响——它们可以发现阻碍物,预测其余车辆或行人的位置,并选择何时转向、刹车或减速。
机器人
装备多模态AI的机器人整合了来自摄像头、麦克风和深度传感器的数据,使它们能够更准确地感知环境并做出相应的反响。例如,它们可以经常使用摄像头来观察和识别物体,或许经常使用麦克风来了解行动命令。甚至可以经过传感器固定,让它们领有触觉、嗅觉和味觉等人类领有的所有五种感官。无论是人形机器人还是装配线上的单干机器人,多模态AI都能给各种机器人在不同的环境中有效地导航。
多模态AI的长处
更好地理解高低文
在学习环节中,多模态模型同时集成和剖析宽泛的数据类型,这使它们对给定主题有了更片面的高低文了解,而非每个独自的数据类型独自能够传播的内容。
例如,假设一个多模态模型被提醒生成一段狮子的视频,它不只会把“狮子”这个词看作是一个字母序列——它还会知道狮子的样子,狮子是如何移动的,以及狮子的吼声是什么样的。
更准确的结果
由于多模态模型旨在识别不同类型数据之间的形式和咨询,因此它们往往能够更准确地理解和解释消息。
它们不只可以经过剖析文本,还可以经过剖析图像来增强结果,从而更准确地预测,或许回答以前无法回答的疑问。须要留意的是,多模态AI依然有或许出错,并或许发生成见或其余有害的结果。
胜任更宽泛的义务
多模态AI系统可以解决比单形式AI系统更宽泛的义务。依据特定的模型,它们可以将文本提醒转换为AI生成的图像,用便捷的言语解释视频中的内容,依据照片生成音频剪辑等等。同时,单模态系统只能成功其中的一项义务。
更好地理解用户用意
多模态准许用户选用他们想要与AI系统交互的方式,而不是被困在一种交换形式中。
无论用户是用举措、言语、打字、做手势来表白自己,这都有关紧要。多模态AI系统可以让用户更好地控制他们想要表白的内容,以更好地捕捉他们的实在用意。
更直观的用户体验
由于多模态系统准许用户依据自己的觉得以几种不同的方式表白自己,因此用户体验“觉得愈加直观”。例如,用户可以上行一段音频片段,而不用形容他们的汽车引擎收回的声响,从而取得有关疑问的倡导。或许,他们可以上行冰箱和食品贮藏室的照片,而不是列出厨房里一切的食物来寻求食谱倡导。
多模态AI的应战
须要更多的数据
由于它们经常使用多种不同的形式,因此多模态模型须要少量数据才干反常上班。例如,假设一个模型的指标是将文本转换为图像,反之亦然,那么它须要有一个强健的文本和图像数据集。
此外,模型所需的数据量还会随着模型中参数(变量)的数量而参与。随着参数数量的参与,模型须要的数据也就越多。
有限的数据可用性
并非一切的数据类型都很容易取得,尤其是不太传统的数据类型,比如温度或手部静止。互联网是许多AI模型训练数据的关键起源,它关键由文本、图像和视频数据组成。因此,假设您想要制造一个可以解决任何其余类型数据的系统,则必定从私有存储库购置或自己制造。
数据很难对齐
正确地对齐多个不同的数据类型通常很艰巨。数据的大小、规模和结构各不相反,须要细心解决和集成,以确保它们在单个AI系统中有效地协同上班。
计算密集且低廉
在很大水平上,多模态之所以成为或许,要归功于当今史无前例的计算资源。这些模型须要能够同时解决海量的不同数据类型,这须要少量的计算才干。此外,在运行程序中部署多模态AI还须要弱小的配件基础设备,这进一步参与了其计算需求和环境足迹。
更关键的是,它通常还很低廉。单模态模型自身就很低廉——传言GPT-3破费了OpenAI近500万美元,而Meta预计在Llama 2上破费了2000万美元。多模态比这些形式还要贵“好几个数量级”。
加剧现有的GenAI疑问
惯例GenAI模型的许多疑问——即成见、隐衷疑问、幻觉——在多模态模型中也很普遍。多模态AI实践上或许会加剧这些疑问。
在数据集中,偏向简直是无法防止的,因此未来自不同起源的数据联合起来或许会造成更显著和更宽泛的偏向结果。解决不同类型的数据还或许触及敏感消息,进一步参与数据隐衷和安保的风险。此外,整合多种数据的复杂性或许会参与发生不准确或误导性消息的风险。
这些疑问给机器人运行带来了更大的风险,由于它们的行为会对物理环球发生间接影响。
您的机器人——无论是无人机、汽车还是人形机器人——都将在事实环球中采取某种执行,并产动物理结果。假设您在控制机器人的模型上没有任何护栏,就有或许出现幻觉或对数据的错曲解释,造成机器人采取或许风险或有害的执行。
多模态AI的未来
许多专家以为,最终,多模态或许是成功通用AI(AGI)的关键。通用AI是一种通常方式的AI,可以像人类一样了解、学习和执行任何智力义务。经过联合各种类型的数据,多模态模型可以对周围的环球构成更片面和片面的了解,这反上来又可以使它能够在宽泛的义务中运行常识,甚至比人类更好。
史蒂文斯理工学院机械工程系副传授Brendan Englo示意:“在寻求一种看起来更像人类智能的AI时,它必定是多模态的。它必定像人类一样解决尽或许多的输入形式——视觉、言语、触觉、身材举措——并且能够以与人类相反的智能对一切这些事情做出反响。”