随着科技的迅猛开展和社交媒体平台的遍及,多模态数据在各种下游运行中变得越来越普遍。多模态情感剖析(Multimodal Sentiment Analysis, MSA)作为一种能够从言语、声学和视觉数据流中提取人类情感和观念的技术,近年来遭到了宽泛关注。MSA在多个畛域具备关键运行,包括经过剖析用户在社交媒体上的文本、语音和视频内容,了解用户的情感偏差和观念,有助于品牌治理和市场营销。在自动助手和聊天机器人中,MSA可以协助系统更好天文解用户的情感形态,从而提供更人造和兽性化的交互体验。经过剖析患者的多模态数据,MSA可以辅佐心思肥壮专业人士评价患者的情感形态和心思肥壮状况。在电影、电视和游戏中,MSA可以用于剖析观众的情感反响,优化内容创作和介绍系统。
虽然MSA在多个畛域展现了渺小的后劲,但其开展仍面临诸多应战。其中一个关键疑问是单模态标签的缺失。在多模态情感剖析义务中,理论只要多模态标签的注释,而不足单模态标签。这造成了多模态标签并不总是单模态标签的现实代替品,经常使用多模态标签来训练单模态信号或者会引入噪声,影响模型的功能。不同模态或者传播不同的情感方面,造成多模态样本中各模态之间的标签不分歧,进一步加剧了噪声标签疑问。
针对上述疑问,8 月 30 日腾讯 AI 试验室和中山大学联结团队团队提出了一种新的元学习框架,名为元单标签生成(Meta Uni-label Generation, MUG),旨在经过弱监视学习单模态标签来改良多模态情感剖析。详细目的包括:
这项技术由中山大学电子与消息技术学院和腾讯AI试验室的钻研人员共同成功,详细成员包括来自中山大学电子与消息技术学院的成员Sijie Mai, Ying Zeng, Haifeng Hu。中山大学电子与消息技术学院努力于电子消息技术畛域的钻研和教育,涵盖人工自动、通讯技术、电子工程等多个方向。团队成员在多模态情感剖析、弱监视学习和元学习等畛域具备丰盛的钻研阅历。来自腾讯AI试验室的成员:Yu Zhao, Jianhua Yao。腾讯AI试验室专一于人工自动技术的钻研和运行,涵盖计算机视觉、人造言语处置、语音识别等多个畛域。试验室努力于推进AI技术的开展,并将其运行于实践产品和服务中。团队成员在多模态学习、情感剖析和深度学习等畛域具备深沉的专业常识和钻研成绩。这个钻研团队结合了学术界和工业界的长处,努力于在多模态情感剖析畛域取得打破性停顿。
方法
钻研团队提出的元单标签生成(Meta Uni-label Generation, MUG)框架旨在经过弱监视学习单模态标签,以改良多模态情感剖析。MUG框架包括三个关键阶段:单模态网络的构建、多模态框架的预训练和元学习战略的运行。经过这些阶段,MUG能够生成准确的单模态标签,并联结训练单模态和多模态义务,提取更具区分力的单模态特色。
图1:单峰学习的噪声标签疑问。多模态标签可以被视为每个单峰网络的不确定指点。
单模态网络的结构和表示生成环节如下:
言语模态
经常使用BERT(Bidirectional Encoder Representations from Transformers)提取上档次言语表示。详细环节如下:
输入序列Ul经过BERT网络,生成表示xˆl。
经过全衔接层将xˆl投影到低维特色空间,获取最终的言语表示xl。
声响和视觉模态
经常使用LSTM(Long Short-Term Memory)网络生成单模态表示。详细环节如下:
输入特色序列Um经过LSTM网络,生成表示xm。
其中,Um表示输入特色序列,xm表示生成的单模态表示。
在多模态框架的预训练阶段,设计了基于对比的投影模块(Contrastive-based Projection Module, CPM),以增加单模态和多模态表示之间的差距。详细环节如下:
多模态表示生成
给定三个单模态序列(言语、声响和视觉),经过单模态网络生成单模态表示。将单模态表示输入多模态融合网络,生成多模态表示x。
对比学习
设计CPM,将多模态表示投影到单模态嵌入空间,并经常使用投影的多模态嵌入训练单模态预测器。经过对比学习提高单模态和多模态表示之间的互消息,增加它们之间的散布差距。
元单标签校对网络(Meta Uni-label Correction Network, MUCN)的元学习环节包括单模态去噪义务和多模态去噪义务。
在元训练阶段,训练MUCN以去噪手动损坏的多模态标签,并恢还原始多模态标签。经过高斯噪声防止MUCN学习身份映射,并提供模型学习子最优单模态标签的才干。
在元测试阶段,设计多模态去噪义务,应用洁净的多模态标签和表示指点MUCN的学习。经过预计MUCN能否能恢复洁净的多模态标签来评价其有效性。
在元学习环节中,驳回双层优化战略以提高MUCN的训练效果。详细环节如下:
在单模态去噪义务训练,经过梯度降低降级MUCN的参数,训练MUCN以去噪手动损坏的多模态标签。
多模态去噪义务评价,经过多模态输入生成后校对损失,评价MUCN的有效性。假设MUCN在元训练后变得更具区分性,则跳过元测试阶段并降级MUCN参数。假设MUCN在元训练后变得不够区分性,则经常使用双层优化战略启动元降级。
在多义务训练阶段,联结训练单模态和多模态学习义务,以提取更具区分力的单模态特色。详细是单模态义务训练经常使用元学习阶段生成的校对单模态标签启动单模态义务训练;多模态义务训练经常使用多模态标签指点多模态义务学习。
图2:拟议MUG的示用意
经过这种模式,MUG能够最大限制地利用现有的多模态消息,提取更具区分力和表白力的单模态特色,从而提高多模态情感剖析的功能。
试验
数据集
钻研团队经常使用了三个关键的数据集来评价MUG框架的功能。
CMU-MOSI是多模态情感剖析畛域的关键资源,蕴含超越2000个视频片段,每个片段的情感强度在-3到+3的Likert量表上启动标注。
数据划分:1284个片段用于训练,229个片段用于验证,686个片段用于测试。
CMU-MOSEI是一个大规模的多模态情感剖析数据集,蕴含超越22000个片段,来自1000多名YouTube演讲者,涵盖250个共同的话题。每个片段都标注了六种情感形态和情感得分(-3到+3)。
数据划分:16326个片段用于训练,1871个片段用于验证,4659个片段用于测试。
SIMS是一个共同的中文多模态情感剖析数据集,蕴含2281个片段,来自电影、电视剧和综艺节目。每个片段的情感得分在-1到1之间。
数据划分:1368个片段用于训练,456个片段用于验证,457个片段用于测试。
为了评价MUG框架的功能,钻研团队经常使用了以下评价目的:
试验结果
在各数据集上的试验结果标明,MUG框架在大少数评价目的上优于竞争基线模型。详细结果如下。
CMU-MOSI数据集
MUG (BERT)在Acc7、Acc2和F1分数上区分比HyCon高0.9%、0.6%和0.5%,比AOBERT高7%以上。
MUG (BERT)在Acc2和F1分数上区分比CubeMLP高0.5%和1.1%,在Acc7、F1分数和Corr上优于AOBERT。
CMU-MOSEI数据集
MUG (BERT)在Acc2和F1分数上区分比CubeMLP高0.5%和1.1%,在Acc7、F1分数和Corr上优于AOBERT。
SIMS数据集
MUG在MAE、Corr和Acc2上优于Self-MM和SUGRM,标明MUG的单模态标签学习战略更具长处。
消融试验
图3:单峰预测器、多峰预测器、多模态融合网络和MUCN的结构。咱们运行一个便捷的融合网络来成功有竞争力的功能。
为了剖析各组件对模型功能的影响,钻研团队启动了消融试验。
单模态学习义务:移除单模态学习义务后,功能清楚降低,标明多义务训练关于提取更具区分力的单模态特色和提高多模态系统功能的关键性。
多模态去噪义务:移除多模态去噪义务后,功能降低约1%,标明多模态去噪义务关于单模态标签学习的关键性。
对比学习:移除对比学习后,大少数评价目的的结果清楚降低,标明对比学习在增加单模态和多模态表示之间的散布差距方面的关键性。
元学习战略:经常使用MLC战略代替提出的元学习战略后,一切评价目的的功能降低,标明提出的元学习战略在学习准确的单模态标签方面更优。
图4:单峰表示和投影多峰表示的T-SNE可视化CL代表对比学习。咱们经常使用言语模态来说明CL的效果,在其余模态中也观察到了相似的结果。
超参数鲁棒性剖析
钻研团队评价了超参数β(第三阶段单模态学习损失的权重)和α(元训练学习率)对模型功能的影响。结果标明:
案例剖析
图5:关于超参数α和β变动的模型功能。
图6:学习单峰标签的案例剖析。
钻研团队提供了两个来自CMU-MOSI数据集的定性样本,展现了多模态输入、学习到的单模态标签和多模态标签。结果标明:
样本1:谈话者没有清楚的面部表情,视觉标签凑近中性;言语标签为负面,声学标签为强负面。MUG能够准确识别各模态的区分水平,并为其调配适当的标签。
样本2:存在矛盾模态,视觉标签为弱侧面,言语标签为弱负面,声学标签为强负面。MUG能够处置矛盾模态的状况,经过准确学习单模态标签,提取更具区分力的特色以启动准确的多模态推理。
经过这些试验结果和剖析,钻研团队验证了MUG框架在多模态情感剖析中的有效性和长处。
探讨
为了剖析对比学习模块的有效性,钻研团队经常使用t-SNE对投影的多模态表示和相应的单模态表示在嵌入空间中的散布启动了可视化。t-SNE是一种能够捕捉高维特色部分结构的降维技术。试验结果显示,当移除对比学习时,投影的多模态表示(蓝色点)在嵌入空间中出现椭圆形散布,而单模态表示则出现条纹状散布。相反,当运行对比学习时,来自两种不同起源的数据点均出现条纹状散布,且它们之间的差距清楚减小。虽然由于多模态和单模态表示的异质性,散布差距无法防止,但MUG能够有效增加这种差距,使得它们在嵌入空间中的散布形态高度相似,从而使单模态模块能够处置投影的多模态表示,以指点单模态标签的学习。
值得留意的是,在单模态-多模态对比学习中,咱们中止了单模态表示的梯度,仅扭转投影的多模态表示的散布,以迫使投影的多模态表示具备与单模态表示相反的散布。因此,无论能否运行对比学习,单模态表示的散布简直相反,而投影的多模态表示在运行对比学习后,其散布变得与单模态表示的散布愈加相似。
为了验证经常使用实在单模态标签对模型功能的影响,钻研团队启动了一个试验,经常使用标注的单模态标签训练SIMS数据集的单模态网络。结果标明,经常使用标注的单模态标签学习单模态表示可以清楚提高多模态系统的全体功能,尤其是与不蕴含单模态学习义务的MUG版本相比。此外,经常使用学习到的单模态标签启动单模态学习义务的MUG版本优于不蕴含单模态学习义务的版本,但略逊于经常使用实在标签的版本。这些结果标明,学习到的单模态标签是有效的,但依然蕴含必定的噪声。
钻研团队还对模型的空间和时期复杂性启动了剖析。
空间复杂性
经常使用可训练参数的数量作为空间复杂性的代理。MUG框架的总参数数量为110,089,956个。相比之下,MISA和MAG-BERT的参数数量为110,917,345个,而Self-MM和MMIM的参数数量区分为109,647,908和109,821,129个。因此,MUG的参数数量适中。这是正当的,由于咱们为每个模态设计了额外的元单标签校对网络和基于对比的投影模块,而Self-MM没有设计额外的可学习模块来学习单模态标签。
时期复杂性
在训练时期方面,前两个阶段只运转一次性以生成联结训练阶段(第三阶段)所需的单模态标签。联结训练阶段和前两个阶段可以解耦,从而大大增加训练时期。因此,MUG的惟一额外时期老本是前两个阶段的训练,这只要运转一次性且不须要调优,是可以接受的。在第三阶段,由于咱们没有设计复杂的融合机制,也不须要在第三阶段学习单模态标签,训练时期比须要在多义务训练时期计算单模态标签的Self-MM更快。详细来说,在相反环境和相反批量大小下,Self-MM每次迭代约需1.16秒,而MUG每次迭代约需0.86秒。
经过这些剖析,钻研团队验证了MUG框架在多模态情感剖析中的有效性和长处,并展现了其在空间和时期复杂性方面的正当性。
论断与未来上班
钻研团队提出了一种新的元学习框架,名为元单标签生成(Meta Uni-label Generation, MUG),旨在经过弱监视学习单模态标签来改良多模态情感剖析。
提出了MUG框架,经过设计元单标签校对网络(MUCN)和基于对比的投影模块(CPM),MUG能够生成准确的单模态标签,并联结训练单模态和多模态义务,提取更具区分力的单模态特色。
单模态去噪义务和多模态去噪义务,经过设计单模态和多模态去噪义务,显式监视训练MUCN,提高单模态标签的品质。
在CMU-MOSI、CMU-MOSEI和SIMS数据集上的试验结果标明,MUG在大少数评价目的上优于竞争基线模型,验证了其在多模态情感剖析中的有效性和长处。
经过消融试验剖析了各组件对模型功能的影响,并评价了超参数对模型功能的影响,验证了MUG框架的稳固性和鲁棒性。
提供了定性样本,展现了学习到的单模态标签和多模态标签,进一步验证了MUG在处置矛盾模态和提取区分力特色方面的才干。
虽然钻研团队提出的MUG框架在多模态情感剖析中取得了清楚的停顿,但仍有一些未来的钻研方向和运行场景值得探求。
MUG框架可以裁减到其余噪声标签学习场景,如图像分类、语音识别等。未来的钻研可以评价MUG在这些义务中的有效性。
将MUG框架运行于实时情感剖析系统,如自动助手、聊天机器人等,进一步验证其在实践运行中的功能和稳固性。
目前的钻研关键集中在英文和中文数据集上,未来可以裁减到其余言语的数据集,评价MUG在多言语情感剖析中的体现。
虽然MUG在提取区分力特色方面体现杰出,但其外部机制依然较为复杂。未来的钻研可以探求如何增强模型的解释性,使其更易于了解和调试。
将MUG框架与其余先进的技术结合,如强化学习、自监视学习等,进一步提高模型的功能和顺应性。经过这些未来的钻研方向和运行场景,MUG框架有望在多模态情感剖析及其余相关畛域取得更大的打破和运行价值。(END)
参考资料:
本文转载自,作者: