本文概述了六个详细的危险畛域:I. 歧视、排挤和毒害,II. 信息危害,III. 失误信息的危害,IV. 恶意经常使用,V. 人机交互危害,以及VI.智能化、访问和环境危害。
第一个危险畛域讨论了大规模言语模型中的偏心性和毒害危险。包括四种不同的危险:LM可以经过使成见和社会成见终身化,形成不偏心的歧视以及代表性的严轻损伤,即特定特色与社会身份的有害关联。社会规范和类别可以扫除或边缘化圈子以外的那些人。LM使此类规范终身化,比如名叫“Max”的人是“男子”,或许“家庭”总是由父亲、母亲和孩子组成的——这种狭窄的类别经常使用或许会否定不同的身份。毒害言语会怂恿恼恨或暴力,或许惹起触犯。最后,对某些社会个体而言比其余个体表现较差的LM会对弱势个体形成损伤,比如说这类模型允许影响这些个体的技术。这种危险在很大水平上源于选用含有有害言语、并适度代表某些社会身份的训练语料库。
第二个危险畛域包括来无私密数据暴露或来自LM正确推断私密或其余敏感信息的危险。这些危险源于训练语料库中的私密数据以及LM的初级推理才干。
第三个危险畛域包括与LM提供虚伪或误导性信息相关的危险,包括这个危险:创立信息不太闭塞的用户,以及削弱对共享信息的信赖。失误信息或许会在敏感畛域形成危害,比如蹩脚的法律或医疗倡导。不良或虚伪信息还或许造成用户口头他们原本不会口头的不品德或合法行为。失误信息危险局部源于LM学习示意言语所驳回的环节:底层的统计方法不能很好地域分理想正确的信息和理想不正确的信息。
第四个危险畛域涵盖尝试经常使用LM形成危害的用户或产品开发人员形成的危险。这包括经常使用LM来提高虚伪信息宣传优惠的成果、大规模筹划共性化骗局或欺诈,或许为病毒或武器系统开发计算机代码。
第五个危险畛域并重于间接与人类用户交互的“对话代理”的特定运行场景带来的危险。这包括源于将系统出现为“相似人”的危险,或许造成用户高估了其配置,以不安保的模式经常使用它。另一个危险是,与此类代理的对话有或许带来新的路径,以操纵或提取用户的私密信息。基于LM的对话代理或许会带来语音助手曾经知道的危险,比如经过自我展现使成见终身化,比如“助理是女的”。这些危险局部源于这类对话代理面前的LM训练目的以及产品设计决策。第六个危险畛域包括更宽泛地实用于LM和人工智能(AI)系统的危险。训练和操作LM会发生高昂的环境老本。基于LM的运行程序或许使一些个体比其余个体取得更大的好处,而LM自身对许多人来说是无法访问的。最后,基于LM的智能化或许影响某些上班的品质,并破坏创意经济的一些局部。因为LM在经济中宽泛经常使用,来自LM的效益微危险在环球散布不均,这些危险就表现得尤为显著。
咱们共引见了21个危险,而后讨论了不同危险的起源,并指出潜在的危险缓解方法。危害的起源或许指明了适当的缓解措施:比如说,暴露私密数据的危险源于该数据存在于训练数据集中。经过更好地编辑或整顿训练数据,可以从源头缓解这个危险。但是,其余缓解方法也或许实用,并确保总体上缓解更有效。比如说,训练环节中经常使用的算法工具(比如差分隐衷方法)或产品决策(比如限度LM的访问和运行场景),就是可以左右开弓的另外的缓解方法。危险缓解方法多种多样:从社会或公共政策干预、技术处置方案和钻研治理、介入式名目,到产品设计决策,不一而足。最后,咱们讨论了实施此类缓解措施方面的组织责任以及单干表演的角色。有效地权衡和减轻伦理和社会危险须要的宽泛专业常识以及受影响社区的偏心介入。这点至关关键:在宽泛了解危险状况的前提下实施缓解措施,以确保缓解一种危害危险不会加剧另一种危害危险。否则,针对毒害舆论的缓解方法或许会有意中造成针对一些社会个体的LM性能降落。
咱们强调了进一步钻研的方向,特意是裁减用于评价LM中概述的危险的工具包,并强调了须要容纳性的介入方法。最后,咱们标明了的上班即论述危险状况为何是向更宽泛的担任任翻新框架迈出的第一步。
原文题目:Ethical and social risks of harm from Language Models