介绍系统里依据搜集的数据来训练介绍模型,给用户介绍一个适宜的 item,当用户与这个 item 发生交互后,数据又会被搜集用于继续训练模型,从而构成一个闭环。然而这个闭环当中或许会存在各种各样的影响要素,因此会发生误差。误差的重要要素就是训练模型时经常使用的大多是观测数据,而不是一个现实的训练数据,会遭到曝光战略、用户选用等等要素的影响。偏向的实质就是关于阅历危险预计的希冀和实在现实危险预计的希冀之间的差异。
介绍营销系统外面比拟经常出现的偏向重要有以下三种:
还有其它一些偏向,例如位置偏向、分歧性偏向等。
上方经过一个例子来了解偏向对建模环节形成的影响。妇孺皆知,抽烟容易造成肺癌,且抽烟的人容易出现黄手指,由于抽烟这个共因的存在,造成咱们认定黄手指与肺癌之间发生了关联。然而咱们不能说由于有黄手指所以会患肺癌,这之间是没有因果相关的。由于抽烟这个共因的存在,造成了这两者之间的虚伪关联,这个共因也叫混同因子(confounder)。这里的因果相关是一个 what if 的疑问,假定其它条件不变的状况下扭转了 a 会造成 y 出现扭转,就说明 a 跟 y 之间存在因果相关。
如何防止这种疑问呢? 一种比拟经常出现的方法就是引入无偏的数据,经过经常使用无偏的数据来协助模型学习无偏的表征;另外一种方法是从因果图的角度登程,经过前期对观测数据启动调整来启动纠偏。因果纠偏就是经过因果的手腕对数据或许模型启动处置,去除偏向的影响。
因果图是一个有向无环图,用来描写场景中各个节点之间的因果相关。因果图重要由三个结构组成:链式结构、分叉结构和对撞结构。
后途径径以及后门准绳可以参照上图的例子“感化新冠肺炎 X 与 Z 以及死亡率 Y 之间的相关”。后途径径就是链接 X 到 Y,然而从 Z 登程最终指向了 Y 的途径。与上一个实例相似,感化新冠肺炎与死亡率之间并不是一个纯正的因果相关,感化新冠肺炎会遭到年龄的影响,老龄人群感化新冠肺炎的概率更高,而老龄人群死亡率也更高。但假设咱们有足够多的数据能够将 X、Y 之间的后途径径所有阻断,即给定了 Z,X 与 Y 就是独立的相关,那么就可以建模真正的因果相关了。
二、基于数据融合的纠偏
1、数据融合纠偏模型引见
上方引见蚂蚁团队基于数据融合纠偏的上班,目前曾经宣布在SIGIR2023的 Industry Track 上。上班的思绪是经过无偏数据来做数据增广,指点模型的纠偏。
无偏数据全体跟有偏数据的散布不相反,有偏数据聚集中在整个样本空间的某局部区域,缺失的样本聚集中在有偏数据相对较少的局部区域,所以增广的样本假设是接近无偏区域比拟多的区域,那无偏数据会施展更多的作用;假设增广样本接近有偏数据的区域,那有偏数据就会施展更多的作用。对此这篇论文设计了 MDI 的模型,可以更好地利用无偏和有偏数据来做数据增广。
上图中展现了算法的框架图,MDI 模型是经过元学习的方法,在无偏数据上调整样本的权重以及加权的系数。首先,MDI 模型训练有两个阶段:
经过优化 L(fd) 的运营损失来训练融合去偏模型 fd,最终的 Lose 损失重要有两项,一个是 L-IPS,一个是 L-IMP。L-IPS 是咱们应用原始样原本启动优化的一个 IPS 模块;R-UI 是应用恣意模型来求导偏向性分数(判别样本属于无偏样本的概率或属于有偏样本的概率);第二项的 L-IMP 是预设的增广模块的权重,R-UI 是预设的增广模块生成的尾标;P-UI 与 1—P-UI 是无偏的 Teacher 模型和融合模型在样本的偏向分数;fp 就是用来学偏向性分数的一个函数,经过学习 fp 自顺应联合无偏数据的 Teacher 模型与的有偏数据训练的模型,独特为增广样本生成伪标志;经过这种方法来学习更复杂的 pattern 消息,fp 经过 Meta learning 的方式求解。
上方是算法完整的训练流程:
2、数据融合纠偏模型的试验
咱们在 Yahoo R3 和 Coat 这两个地下数据集上启动了评价。Yahoo R3 经过搜集 15000+ 用户对 1000 首歌曲的打分,一共 以及5 条无偏数据。Coat 数据集是经过 290 个用户对三百件衣服的打分搜集了 6900+ 条有偏数据和 4600+ 条无偏数据。两个数据集用户的打分都在 1 到 5 之间,有偏的数据来自于平台的数据用户,无偏的样本经过随机给用户选用打分的方式来搜集。
除了两个地下的数据集,蚂蚁还经常使用了来自业界实践场景的一个数据集,为了模拟无偏数据样本十分少的状况,咱们把所有的有偏数据和 10% 的无偏数据用来训练,保管 10% 的无偏数据作为验证,剩下 80% 作为测试集。
咱们经常使用的 Baseline 对比的方法重要是以下几种:第一个方法是区分应用无偏数据、单有偏数据和直接数据融合训练的模型;第二个方法是经过少局部无偏数据,设计了一个正则性的表征解放有偏数据、无偏数据表征的相似度来启动纠偏的操作;第三个方法是逆概率权重的方法,偏向性分数的一个逆概率。Double robust 也是一个比拟经常出现的纠偏的方法;Propensity free double robust 是一个数据增广的方法,它先用无偏的样本学习一个增广的模型,而后经过增广的样本协助整个模型启动纠偏;Auto debias 也会用到一些无偏的数据做增广来协助模型纠偏。
咱们经常使用了 MSE 和 MAE 这两个目的来评价表现。如图所示,咱们提出的 MDI 方法,在 Coat 以及 Product 两个数据集上,两个目的都有比拟好的表现。
在 Yahoo R3 数据集上,咱们提出的方法在 MAE 上的表现目的最好,在 MSE 除了 IPS 以外的方法表现是最好的。三种数据增广的方法,PFDR、Auto Debias 以及咱们提出的 MDI,在少数状况下表现的都会更好,然而由于 PFDR 是提早应用无偏数据训练增广模型,会重大依赖于无偏数据的品质,因此它在 Coat 模型上就只要 464 条无偏训练数据样本,当无偏样本比拟少的时刻,它的增广模块就会比拟差,数据表现也会相对差一些。
AutoDebias在不同数据上的表现与 PFDR 正好相反。由于 MDI 设计了同时应用无偏数据以及有偏数据的增广方法,所以具备更强的数据增广模块,因此它在无偏数据比拟少或许无偏数据比拟短缺这两种状况下都可以取得比拟好的成果。
咱们在两个地下数据集上也评价了这些模型在不同比例的无偏数据下的表现,区分经常使用了 50% 到 40% 的无偏数据以及所有的有偏数据来用于训练,其它逻辑与前面10% 的无偏数据做验证,剩下的数据做测试,这个设定与前面的试验一样。
上图展现了驳回不同方法在不同比例的无偏数据下的 MAE 的表现,横坐标表示无偏数据的比例,纵坐标表示各个方法在无偏数据上的成果,可以看到随着无偏数据比例的参与 AutoDebias、IPS 以及 DoubleRubus 的 MAE 没有清楚的降低环节。然而不按 Debias 的方式,直接应用原始数据融合来学习的办规律会有比拟清楚的降低,这是由于无偏数据的样本比例越高,咱们全体的数据品质就越好,所以模型可以学到更好的表现。
当 Yahoo R3 的数据经常使用超越 30% 的无偏数据来训练的时刻, 这种方式甚至超越了除 MDI 以外其它一切的纠偏方法。但 MDI 的方式相对来说可以取得更好的表现,这也可以证实 MDI 方法在不同规模的无偏数据下都有比拟鲁棒的结果。
同时咱们也启动了消融试验,在三个数据集上区分验证增广模块当中各个局部的设置能否有效。
λ=0 的设置表示直接去除了增广模块;Pu,i = 1 表示只应用无偏数据建模增广数据模块;Pu,i = 0 表示只应用有偏以及增广的融合数据建模增广数据模块。
上图中展现了消融试验的结果,可以看到 MDI 方法在三个数据集上都取得了比拟好的成果,说明增广模块是有必要的。
无论是在地下数据集上,还是实践业务场景的数据集上,咱们提出的融合无偏和有偏数据的增广方法相比之前已有的数据融共打算都有着更好的成果,同时经过参数敏理性试验以及消融试验也验证了 MDI 的鲁棒性。
三、基于后门调整的纠偏
上方来引见下团队的另外一个上班:基于后门调整纠偏。这一上班也已宣布在了 SIGIR2023 的 Industry Track 上。后门调整纠偏运行的场景就是营销介绍的场景,如下图所示,用户与活动券或许用户与恣意广告、item 的交互是不受任何干预的,有均等的或许去恣意交互,每张券也有均等的或许会曝光给恣意用户。
但在实践的业务场景当中,为了包全或许协助一些小商户优化流量,以及保证全局的用户介入体验,通常会设置一系列的战略解放,这种状况就会造成一局部用户会更多的曝光某些活动券,另一局部用户会更多的曝光另外一张活动券,这种干预就是前文中提到的 confounder。
这种干预在电商营销场景里会发生什么疑问呢?如上图所示,为了简化,咱们将用户便捷地分为高介入志愿和低介入志愿两类,将活动券便捷地分为大折扣和小折扣两类。图中柱状图的高下表示了对应样本的全局占比,柱状图越高,说明对应样本在全体训练数据当中占比越多。图中所展现的小折扣的活动券以及高介入志愿用户样本占据了大少数,会造成模型学到图中所示的散布,模型会以为高介入志愿用户更青睐小折扣的活动券。但实践上方对雷同的经常使用门槛,用户必需会偏向于折扣更高的活动券,这样才会更省钱。图中模型关于实践的转化概率是小折扣活动券低于大折扣活动券的,然而模型关于某一个样本的预估反而会以为小折扣活动券核销概率更高,所以模型也会介绍这个打分对应的活动券,这就构成了一个悖论。
从因果图的视角剖析这个悖论发生的要素,在的场景下运行非纠偏的介绍模型,其因果图结构如上图所示,U 表示用户的表征,I 表示 item 的表征。D 和 K 区分是用户视角与权力视角的历史交互状况,T 表示业务设置的一些规定解放,T 是没方法直接量化的,然而咱们可以经过 D 和 K 来直接地看出它对用户和 item 的影响。y 表示用户与 item 的交互,结果就是 item 能否被点击、被核销等。
因果图所代表的条件概率公式如图右上所示,公式推导遵照贝叶斯概率公式。在给定 U 和 I 的条件下,最终求导 P|Y ui 并不是只与 U 和 I 相关,由于 U 会遭到du的影响,也就是 p 给定 u 的时刻p(du)的概率也是存在的。给定 I 的时刻同理,I 也会遭到ki的影响,这个状况发生的要素是由于 D 和 K 的存在造成了场景当中存在后途径径。也就是不从 U 登程,然而最终指向 y 的途径(U-D-T-Y 或许 I-K-T-Y途径)这种后途径径会表示一个虚伪观点,也就是 U 不只可以经过 T 影响 y,也可以经过 D 影响 y。
调整的方法是将 D 到 U 的途径人为切断,这样 U 只能经过 U-T-Y U-Y直接影响y,这种方式可以去除虚伪关联,从而建模真正的因果相关。后门调整是对观测数据做do-calculus,而后经常使用do算子聚合一切D以及一切K的状况表现,防止U和I遭到D和K的影响。经过这种方式建模一个真正的因果相关。这个公式的推导近似预计方式如下图所示。
4a和前面 3b 方式是一样的,而 4b 是做了样本空间的近似。由于通常过去讲 D 和 K 的样本空间是有限的,只能经过搜集到的数据(样本空间的 D 和 K 取一个大小)来做近似。4c 和 4d 都是希冀的近似的推导,经过这种方式最终只要额外建模一个无偏表征 T。T 是经过遍历一切状况下用户跟 item 的表征概率散布和,额外建模无偏表征 T,来协助模型获取最终的无偏数据预计。
试验驳回了两个开源的数据集,天池和 84.51(活动券)数据集。经过采样的方式模拟这种规定战略对全体数据的影响。同时,经常使用了某个实在的电商营销活动场景所发生的数据,独特评测算法的好坏。对比了一些干流的纠偏方法,比如 IPW 是经过逆概率加权做纠偏;Unawareness 是经过去除偏向特色来缓解偏向的影响;FairCo 是经过引入误差项解放表征来取得相对无偏的预计;MACR 是经过多义务的框架区分预计用户的分歧性以及 item 的盛行水平,在预测阶段减去分歧性跟盛行度这种方式来成功无偏预计;PDA 是经过因果干预,对损失项做调整的方式去除盛行性偏向的影响;DecRS 也是借助后门调整去除消息偏向,然而它只针对用户视角的偏向启动纠正。
试验的评价目的是 AUC,由于营销推动场景关于介绍活动券或许介绍候选的商品只要一个,所以实质上是二分类的疑问,因此驳回 AUC 来评价比拟适宜。对比了 DNN 和 MMOE 不同架构下的表现,可以看出,咱们提出的 DMBR 模型相比于原始无纠偏方式以及其它纠偏方式都有着更好的成果。同时 Ds_A 跟 Ds_B 在模拟数据集上比实在的业务数据集上获取了更高的优化成果,这是由于实在业务数据集的数据会更复杂,不只会遭到规定战略的影响,还或许会遭到其它要素的影响。
目前模型已在某电商营销活动场景上线,上图展现了线上的成果,对比基线模型,DMBR 模型在核销率以及核销量上都有必定的优化。
因果纠偏的方法,在蚂蚁重要运行在存在规定或许存在战略解放的场景,比如广告场景,或许会设置解放不同广告的投放人群,一些针对宠物的广告,会更多地投放给有宠物的用户。电商营销的场景,会设置一些战略来保证小商家的流量,防止一切流量都被大商家消耗。以及保证用户活动介入体验,由于活动的全体估算有限,有一些薅羊毛的用户重复介入活动,就会占用掉少量的资源,造成其余用户的活动介入体验较差。诸如此类的场景中,都有对因果纠偏的运行。