思考一个规范的ResNet50模型,该模型经过训练用于图像分类义务。 咱们能否能够了解这个模型中的卷积滤波器如何将输入图像转换为其预测的标签 ?或许,GPT-3中的留意力头如何contribute到下一个标志的预测?了解这些模型组件——包含滤波器或头号架构“构建块”——如何群体塑造模型行为(包含模型失败)是艰巨的。毕竟,深度网络在很大水平上是黑匣子——由模型组件之间高度非线性交互导致的复杂计算图。
遭到这一应战的启示, 解释性上班的一个方向旨在经过表征单个组件的配置 ,例如视觉模型中的曲线检测器和对象特定滤波器,或言语模型中的常识神经元和演绎头,来说明外部模型计算。作为这一上班方向的一部离开发的方法旨在以各种模式“加大”特定的模型行为和/或组件。
显式建模模型计算
为了处置上述疑问,钻研人员引入了一个称为 组件建模 的义务。组件建模的指标是构建一个便捷且可解释的预算器,以了解模型的输入如何照应于对其组件的干预或消弭。直观地说, 这里的关键想法(如下图所示)是,假设咱们真歪了解模型组件对预测的奉献,咱们应该能够预计假设咱们扭转一些组件,预测将如何扭转 :
这项钻研并重于组件建模的一种不凡“线性”状况,称之为 组件归因 。如下所示,关于给定模型预测的组件归因首先为每个模型组件调配一个分数,而后预计消弭一组组件的反理想成果,作为它们相应分数的总和:
组件归因很便捷 ——它将给定的预测合成为来自每个模型组件的加法奉献。它们也是可解释的,由于调配给组件的“分数”示意该组件对感兴味的预测的“奉献”(同时解脱了模型的外部计算的复杂性)。
经过回归预计组件归因(COAR)
事前不分明组件归因能否足够表白深度网络中从组件到预测的(固有的非线性)映射。但是,钻研人员发如今视觉模型(例如ImageNet ViTs)和言语模型(例如Phi-2)上,实践上可以计算准确的组件归因——即,线性性足以预测组件消弭的成果!如下所示:
为了计算这些归因(即下面的系数向量w),钻研人员提出了一种便捷的方法——称为COAR(经过回归启动组件归因),它将此义务转化为规范的监视学习疑问,并分两步处置:
COAR归因准确吗?
回到在ImageNet数据集上训练的ResNet-50模型,将这个模型视为由22,720个组件组成,每个组件对应一个卷积滤波器。 能否经常使用COAR来预测这个模型将如何对组件消弭做出照应(在这种状况下,消弭对应于将给定一组滤波器的参数置零)?
为了回答这个疑问,钻研人员经常使用COAR来预计ImageNet验证集中每个50,000个示例的组件归因。结果是一组50,000个组件归因—每个归因预计每个组件对相应ImageNet示例上模型预测的奉献。
为了确定结果的归因能否有效,钻研人员便捷地审核组件归因能否准确预计了(随机地)消弭模型输入上的随机子集的组件的成果。
例如,上图聚焦在一个独自的ImageNet示例上。每个点对应于一组(随机的)模型组件。给定点的y值是消弭该组件集的反理想成果(即,将相应参数设置为零);x轴是对该反理想成果的预计,由示例的组件归因给出。随机组件消弭的基本理想和归因预计的成果展现了高达0.70的高相关性, 这象征着至少关于这个示例,组件归因在预测模型行为方面相当不错!
在下图中,将其转化为一个综合剖析。也就是说,评价了一切验证示例中基本理想消弭成果和基于归因的预计之间的平均相关性——为了测试COAR的限度,钻研人员还扭转了消弭的组件比例,并钻研了COAR的性能变动。作为基线,钻研人员将几种“组件关键性”的概念调整到组件归因设置中。
总的来说,钻研人员发现COAR在数据集和模型中不时以很大的长处 consistently outperforms多个归因基线。
译自(有删改):
谁是Aleksander Mądry?
Aleksander Mądry是波兰裔计算机迷信家,麻省理工学院(MIT)传授, OpenAI Preparedness团队首席迷信家 。Aleksander Mądry的钻研触及机器学习、优化和图论,着重于操作化技术,使得机器学习算法能够安保地无理想环球中部署。他上班的关键焦点之一是开发能够处置反抗攻打的弱小而高效的算法。 这一钻研方导游致了一种使神经网络愈加抗反抗攻打和剖析反抗样本宽泛存在根源的方法的开发。 他还努力于基于延续优化的方法来处置组合优化疑问,例如最大流疑问和二部图婚配疑问。
AleksanderMądry在2006年和2007年区分从弗罗茨瓦夫大学取得了计算机迷信和物理学的学士学位。而后,他在MIT攻读计算机迷信博士学位,于2011年成功。他的博士论文“从图到矩阵,再到图:图算法的新技术”取得了ACM博士论文奖荣誉提名和MIT乔治·M·斯普劳尔斯奖,被评为计算机迷信畛域的最佳论文。随后,他曾在微软钻研新英格兰分部负责博士后钻研员, 并在瑞士洛桑联邦理工学院负责教职,而后添加了麻省理工学院电气工程和计算机迷信系的教职 。
Aleksander Mądry因其钻研奉献取得了许多奖项和荣誉,包含NSF职业生涯奖。他的上班曾屡次取得诸如IEEE计算机迷信基础钻研会议(FOCS)等会议的最佳论文奖。 2019年,他被欧洲实践计算机迷信协会授予普雷斯伯格奖。
原文链接: