变形金刚五年替代狂卷的CNN！Transformer将统帅人工智能

如今在AI业界众所周知的Transformer，终究是怎么在短短期间爆火的？

Transformer的来源

构想一下你逛左近的五金店，在货架上看到一种新型的锤子。它比其余锤子敲得更快、更准确，在过去几年里，它曾经淘汰了许多其余锤子，至少在大少数用途中是这样。而且经过一些调整——这里加个附件，那里加个扭矩——这个工具还能变成了一把锯子！它的切割速度和准确度不亚于任何同类产品。理想上，一些处于五金开发前沿的专家示意，这把锤子或许只是一切五金工具将融合到单个设施中的先兆。相似的故事正在AI业界中演出。那个「多配置的新锤子」是称为Transformer的人工神经网络，这是一种经过对现有数据启动训练来「学习」如何成功某些义务的节点网络。

最后，Transformer被用于言语处置，不过最近则影响到了更多的畛域。2017年，Transformer初次出如今谷歌钻研人员宣布的论文中，该论文标题是奥秘的「Attention Is All You Need」。之前其他人工智能的通用门路是，系统会首先关注输入数据部分的块，而后再去构建全体。例如，在言语模型中，临近的单词首先会被组合在一同。而Transformer的运转门路，则会让输入数据中的每个单元都相互咨询或获取关注，钻研人员将此称为「自留意力」。这象征着一旦开局训练，Transformer就可以看到整个数据集的处置轨迹。

论文链接：很快，Transformer就成为专一于剖析和预测文本的单词识别等运行程序的领头羊。它催生了一批新的AI工具，比如OpenAI的GPT-3，它可以训练数千亿个单词并继续生成语义可读的新文本，智能到令人不安。Transformer的成功让AI业界猎奇它还能成功其余哪些义务，而答案正在揭晓。在诸如图像分类的视觉义务中，经常使用Transformer的神经网络更快、更准确。而那些须要一次性性处置多种输入数据/方案义务的新兴义务也预示着，Transformer能口头的上班还可以更多。就在10年前，AI学界的不同子畛域之间简直没有共通言语。但Transformer的来到标明了融合的或许性。

德克萨斯大学奥斯汀分校的计算机迷信家Atlas Wang说：「我以为Transformer之所以如此受欢迎，是由于它暗含着全畛域通用的后劲。咱们有充沛的理由想要在整个AI迷信范围内尝试经常使用Transformer」。

从言语到视觉

在「Attention Is All You Need」论文颁布几个月后，扩展Transformer运行范围的最有出路的举措之一就开局了。事先在柏林的谷歌钻研部门上班的计算机迷信家Alexey Dosovitskiy，正在钻研计算机视觉，这是一个专一于教计算机如何处置和分类图像的AI子畛域。与该畛域的简直一切其他人一样，他事先的罕用工具是卷积神经网络（CNN），多年来，这种技术推进了深度学习、尤其是计算机视觉畛域的一切严重飞跃。CNN的上班原理是重复对图像中的像素经常使用滤波器，以建设对特色的识别。正是由于卷积配置，照片运行程序可以按脸孔组织图片库，或许将云与鳄梨区别开来。由此，CNN也成为了视觉义务处置中必无法少的工具。

Dosovitskiy正在钻研该畛域最大的应战之一，即扩展CNN的规模，以训练越来越高分辨率图像带来的越来越大的数据集，同时不增延处置期间。这时他留意到，Transformer在NLP义务中简直曾经齐全取代了此前一切的工具。那么，能否也能在视觉处置上做到相似成果呢？这个想法很有洞见。毕竟，假设Transformer可以处置单词的大数据集，为什么不能处置图片的呢？最终的结果是一个名为「视觉Transformer」或ViT的神经网络，钻研人员在2021年5月的一次性会议上展现了该网络。

论文链接：该模型的架构与2017年提出的第一个Transformer的架构简直相反，只启动了庞大的更改，使其能够剖析图像而非文字。ViT团队知道他们无法齐全模拟Transformer处置言语数据的方法，由于每个像素的自留意力要在模型运转中所有成功，将会极端耗时。相反，他们将较大的图像划分为正方形的单元，也就是所谓的词元（token）。词元大小是恣意的，由于可以依据原始图像的分辨率变大或变小（自动是每边16像素）。经过火单元处置像素，并对每个单元运行自留意力，ViT可以极速处置少量训练数据集，从而发生越来越准确的分类。

Transformer以超越90%的准确率对图像启动分类，这比Dosovitskiy预期的结果要好得多。在ImageNet分类应战赛这项业界标杆性图像识别较量中，ViT迅速取得榜首。ViT的成功标明，CNN或许不像很多钻研人员以为的那样，是计算机视觉的惟一基础。与Dosovitskiy协作开发ViT的Neil Houlsby说：「我以为CNN很或许在不久的未来被视觉Transformer或其衍生品所取代。」与此同时，其余的结果也允许了这个预测。在2022年终的测试中，ViT的降级版本仅次于将CNN与Transformer相联合的新方法。而之前的冠军CNN模型，如今勉强进入前10名。

Transformer是如何上班的？

ImageNet的结果标明，Transformer确实可以与CNN相抗衡。然而，谷歌的计算机迷信家Maithra Raghu想知道它们能否像CNN那样「看到」图像。虽然神经网络是一个臭名昭著的黑匣子，但有一些方法可以窥探其外部状况。比如。经过逐层审核网络的输入和输入，从而了解训练数据是如何流动的。

论文链接：关于CNN来说，它会一一像素地识别图像，经过从部分到全局的模式识别每一个角落或线条的特色。在自留意力的加持下，Transformer甚至可以在神经网络的第一层，就把散布在图像中间的消息建设咨询。假设说CNN的方法就像从一个像素开局加大，那么Transformer则是缓缓地将整个含糊的图像变得明晰。这种差异在言语畛域更容易了解。比如，猫头鹰发现了一只松鼠。它试图用爪子抓住它，但只抓到了它的尾巴末端。第二个句子的结构令人困惑。这些「它」指的是什么？一个只关注紧挨着「它」字的CNN会很吃力，但一个将每个字与其余字咨询起来的Transformer可以看出，猫头鹰做了抓取的举措，而松鼠则失去了部分尾巴。

融合正在出现

如今钻研人员宿愿将Transformer运行于一项更艰难的义务：生成新图像。就像GPT-3等言语工具可以依据其训练数据生成新文本一样。于是，在2021年宣布的一篇论文中，Wang联合了两个Transformer模型，试图对图像做雷同的事件。这是一个艰难得多的义务。

论文链接：当双Transformer网络在超越20万名人的面部图片上启动训练时，它以中等分辨率分解了新的面部图像。依据初始分数（一种评价神经网络生成图像的规范方法），Transformer生成的名人图片令人印象深入，并且至少与CNN生成的名人图片一样令人信服。

Transformer在生成图像方面的成功，比ViT在图像分类方面的才干更令人惊叹。雷同，在多模态处置方面，Transformer也有了一席之地。在以前孤立的方法中，每种类型的数据都有自己的专门模型。而多模态网络则可以让一个程序除了听声响外，还可以读取一团体的嘴唇。也就是可以同时处置多种类型数据的模型，如原始图像、视频和言语。「你可以领有丰盛的言语和图像消息示意数据，」Raghu说，「而且比以前更深化。」

新兴名目标明了Transformer在其余AI畛域的一系列新用途，包括教机器人识别人体静止、训练机器识别语音中的心情以及检测心电图表现的患者压力水平。另一个带有Transformer组件的程序是AlphaFold，2021年它因其极速预测蛋白质结构的才干而成为头条资讯——这项义务以前须要十年的期间深化剖析。

利害

即使Transformer可以有助于AI工具的融合和改良，新兴技术通常也会带来高昂的代价，Transformer也不例外。Transformer在预训练阶段须要更高的算力撑持，而后才干施展击败传统竞争对手的准确性。Wang示意，人们总会对高分辨率图像越来越有兴味。而由此带来的模型训练老本下跌，或许是Transformer宽泛铺开的一个毛病。不过，Raghu以为此类训练阻碍可以经过复杂的滤波器和其余工具轻松克制。

Wang还指出，虽然视觉Transformer曾经引发了推进AI行进开展的新名目——包括他自己的名目在内，但许多新模型依然蕴含了卷积配置的最精髓部分。这象征着未来的模型更有或许同时经常使用CNN与Transformer，而不是齐全丢弃CNN。而这预示了此类混合架构的迷人前景。或许，咱们不应该急于得出Transformer将成为最终模型的论断。不过可以必需的是，Transformer越来越有或许成为从业者常光临的AI五金店里任何一种新的超级工具的必备组件。

文章版权声明 1、本网站名称：莆田市城厢区萌爵百货商行
2、本站永久网址：http://www.relax48.com
3、本网站的文章部分内容可能来源于网络，仅供大家学习与参考，如有侵权，请联系站长进行删除处理。
4、本站一切资源不代表本站立场，并不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报

#神经网络 #人工智能 #计算机视觉

变形金刚 五年替代狂卷的CNN！Transformer将统帅人工智能

Transformer的来源

从言语到视觉

Transformer是如何上班的？

融合正在出现

利害

变形金刚五年替代狂卷的CNN！Transformer将统帅人工智能