作者 | Arvind Narayanan &Sayash Kapoor
编译|岳扬
AI 企业正群体方案在配件和数据中心上投入高达万亿美元[1]的资金,但是迄今为止,这些投入所带来的成绩却相对较少。这一现象也引发了许多人的担心,他们疑心 GenAI 能否只是一场泡沫[2]。咱们不会对未来的事情做出任何预测,但咱们以为,关于事情现在是如何走到这一步的,咱们曾经有了一个明晰的意识。
本文将讨论 AI 企业所犯的那些失误,以及他们是如何致力纠正这些失误的。接上去咱们将讨论人工智能公司为了使 GenAI 在商业上取得足够的成功,从而证实之前在配件和数据中心上的巨额投资是正当的,它们还须要超越的五大阻碍。
01 产品与市场的契合点
ChatGPT 一经推出,便被用户们开掘出数种意想不到的用途,这让 AI 开发者们激动不已。但是,他们并未准确掌握市场脉搏, 漠视了概念验证(POC)与牢靠产品之间存在的渺小鸿沟。 这种市场误判造成出现了两种截然相反的大言语模型(LLMs)商业化方法,但两者都存在缺点。
OpenAI 和 Anthropic 专一于模型的构建,对产品开发则显得不够注重。比如,OpenAI 花了 6 个月的期间才颁布了 ChatGPT iOS App,而 Android App 更是又晚了 8 个月才面市!
与此同时,谷歌和微软在竞争中慌不择路,将 AI 技术匆忙植入各种产品,却未深化思索哪些产品真正须要 AI 的加持,以及 AI 应该如何与这些产品整合。
这两家公司都遗记了 “打造用户所需产品” 这一**准则。 大言语模型的通用性让开发者误以为,他们可以不用寻觅产品与市场的契合点,仿佛只需让模型口头某个义务,就能取代之前精心设计的产品或配置。
OpenAI 和 Anthropic 采取的自主开发(DIY)方法造成出现了一个疑问:早期经常使用大言语模型(LLMs)的用户群体中,不能代表广泛的大模型经常使用者。由于这些人更情愿投入精神去钻研如何应用这些新技术去成功自己的目的,而个别用户则更偏向于经常使用便捷易用的产品。这种状况使得该技术的群众笼统发生了负面印象。<sup>1</sup>
与此同时, 微软和谷歌那种“强行植入 AI ”的做法,虽然偶然能带来便利,但更多时刻却让用户感到不胜其烦。 此外,由于测试上班没做到位,还出现了许多本可防止的失误,比如微软早期的 Sydney[3] 聊天机器人和谷歌的 Gemini[4] 图像生成器。这些状况雷同引发了群众的不满和抵触。
不过,这些公司如今正在调整运营战略。 OpenAI 仿佛正在从专一于基础钻研和翻新探求的畛域转型,愈加偏向于开发和推进详细的产品与服务走向市场化。假设撇开 OpenAI 董事会外部的戏剧性事情不谈,其**转变是从谋求翻新神迹(creating gods)到专一于产品开发(building products)。Anthropic 则吸纳了许多之前在 OpenAI 上班、更关注通用人工智能(AGI)钻研的科研人员和开发人员,他们在 OpenAI 感到貌合神离。虽然如此,Anthropic 也意识到了打造产品的必要性。
谷歌和微软在这方面举措较慢,但咱们推测苹果或者会迫使它们做出扭转。去年,苹果[5]在 AI 畛域仿佛还处于落后形态,但预先来看,苹果在其环球开发者大会(WWDC)上所展现的那种审慎而深思熟虑的 AI 开展战略,仿佛更能够赢得用户的认可<sup>2</sup>。谷歌在其行将推出的新款 Pixel 手机[6]和新版本的 Android 操作系统中,关于如何整合 AI 仿佛启动了更多的思索,比起在搜查配置上运行 AI 要用心得多,不过它们还未上市,咱们无妨刮目相待。
再来看看 Meta,其旨在应用人工智能在其依赖广告收益的社交媒体平台上发明内容,并增强用户的互动介入度。在一个充满着 AIGC(人工智能生成内容,Artificial Intelligence Generated Content)的环球,其社会影响无疑是复杂且具有两面性的[7]。但是,从商业战略的角度来看,这一方针无疑是理智的。
02 基于 AI 的面向生产者型产品(consumer AI)需超越的五大阻碍
为了打造吸引人的基于 AI 的面向生产者型产品,开发人员需超越大言语模型(LLMs)的五大阻碍。<sup>3</sup>
2.1 产品老本
在泛滥运行场景中,模型的才干并非限度要素,老本才是。 即使是便捷的聊天运行,老本也限度了 chatbot 能够回溯的对话历史长度 —— 随着对话期间的延伸,对整个对话历史启动处置的老本会迅速飙升,变得令人难以接受。
大模型的老本曾经清楚降低 —— 过去 18 个月里,等同才干的模型老本降低了超越 100 倍。 <sup>4</sup>因此,有企业宣称 LLMs 已到达或行将到达“廉价到微无余道”[8]的水平。不过,等他们收费开明 API 时,咱们才会真正置信这一点。
咱们以为老本疑问仍将是一个关注点,由于在许多大模型运行中,老本的降低间接象征着准确性的优化。 这是由于 LLMs 存在随机性,屡次重复尝试成功义务(十次、千次甚至百万次)是一种提高成功率的有效方法。因此,在相反估算的状况下,模型越廉价,咱们就能启动更屡次尝试。咱们在近期一篇关于 AI Agents 的论文[9]中对此启动了量化剖析。尔后,也有多篇论文[10][11]提出了相似的观念。
虽然如此,咱们还是有理由置信,在不久之后咱们将进入一个新阶段,届时在少数运行场景中,老本的优化(cost optimization)将不再是一个关键疑问。
2.2 产品牢靠性
产品的才干和牢靠性在咱们看来是两个相对独立的概念。假设一个 AI 系统有 90% 的概率正确成功一项义务,咱们可以说它具有成功该义务的才干,但却不能保障稳固牢靠地成功。那些让咱们到达 90% 正确率的技术,却未必能协助咱们到达 100%。
关于基于统计学习的系统来说,谋求完美的准确性自身就是一项艰难的义务。回顾机器学习在广告精准定向、欺诈检测,或是近期在天气预告畛域的成功案例,完美的准确性并非指标 —— 只需系统的表现优于现有技术水平,它就是有价值的。即使在医疗诊断和其它医疗肥壮畛域,咱们也能接受必定水平的误差[12]。
但是,当 AI 被运行于面向生产者型产品时,用户希冀它能像以前的传统软件一样运转,即须要它们能够稳固无误地上班。假设一款 AI travel agent 只要 90% 的几率能正确预订假期目的地,那它就不会成功。正如咱们之前写过的文章[13],牢靠性无余是近期一些基于 AI 的小工具失败的要素之一。
AI 开发者们对此疑问的认知趣对较为缓慢,要素在于咱们这些专家习气于将 AI 看成与传统软件有实质区别的物品。比如,咱们俩在日常上班中对聊天机器人和 AI Agents 的经常使用频率十分高,关于这些工具或者出现的幻觉和无法靠之处,咱们简直能够智能地启动规避。 去年,AI 开发者们或者还寄宿愿于非专业用户能够学会顺应 AI,但如今逐渐清楚的是,企业须要调整 AI 以合乎用户的希冀,让 AI 像传统软件一样运转。
提高 AI 的牢靠性是咱们普林斯顿团队的钻研重点。目前,能否应用随机性组件(LLMs)构建出确定性系统,还是一个尚未解答的疑问。有些公司宣称曾经处置了牢靠性疑问 —— 比如,一些法律科技公司宣传他们的系统“不会发生幻觉”。但理想证实,这些说法为时兴早[14]。
2.3 隐衷疑问
在机器学习的开展历程来看,它通常依赖于蕴含敏感消息的数据源(data sources),比如应用历史阅读记载启动广告定向推送或经常使用医疗记载开展医疗肥壮科技[15]。但是,LLMs 在这方面显得有些特立独行,由于它们关键是经过公共资源(如网页和书籍)来启动训练的。<sup>5</sup>
但随着 AI assistants 的遍及,隐衷疑问再次成为焦点。为了打造适用的 AI assistants,企业须要应用用户的交互数据来训练系统。例如,假构想要 AI 在电子邮件这一经常使用场景表现优秀,那么就必定在电子邮件数据上启动训练[16]。 不过,各大企业在隐衷政策(privacy policies)上对此往往语焉不详,目前尚不清楚这种状况的实践影响范围。 <sup>6</sup>电子邮件、文档和屏幕截图等数据或者比聊天记载更为敏感。
此外,还有一种与推理而非训练无关的隐衷疑问。AI assistants 要想为咱们提供便利,就必定能够访问咱们的团体数据。例如,微软曾发表要设计一项饱受争议的配置,该配置将每隔几秒钟对用户的电脑屏幕启动截图,以便其 CoPilot AI 能够对用户的行为启动记忆、学习。但这一举动引发了群众的剧烈抗议,微软最终不得不丢弃这一方案[17]。
咱们在这里提示大家,不要仅仅从技术层面了解隐衷疑问,比如说“数据永远不会退出设备”。Meredith Whittaker 指出[18],设备上的欺诈行为检测(fraud detection)或者会使继续监控变得常态化,而且所构建的这种基础设备有或者被不良分子恶意应用。虽然如此,技术翻新[19]确实能够在必定水平上协助咱们包全隐衷。
2.4 产品的安保疑问
在产品安保方面,存在一系列关系的疑问:例如 Gemini 的图像生成配置存在成见[20]等 异常缺点 ;例如声响克隆或 deepfakes 等 AI 的滥用 ;以及如提示词注入(prompt injection)等 黑客攻打 ,或者会暴露用户数据或以其余模式侵害用户权力。
咱们以为异常缺点是可以修复的。至于大少数类型的滥用, 咱们的观念是,无法创立[21]一个不会被滥用的模型,因此必定关键从下游启动进攻 。当然,并非每团体都赞同这种观念,因此很多公司将继续由于无法防止的滥用而始终遭到负面资讯的影响,但这些公司仿佛曾经将这视为展开 AI 业务的一局部运营老本