开视频远程会议的时刻,很多人都不青睐关上摄像头。即使开了,在界面上大家也都被框在不同的窗口里。只管这种方式操作起来很繁难,但总是不足点临场感。
最近,谷歌提出了一项钻研旨在处置这个疑问,这个名叫 ChatDirector 的技术可以经常使用静态的 2D 头像生成 3D 虚构人,让大家一起「坐在会议室里」散会,只是看起来样子有点夸张:
ChatDirector 经过空间化视频头像、虚构环境和智能规划转换,构建了一个拟真的虚构环境。
虽说只是早期钻研,虚构人物口型也能准确对上,但总感觉有一点喜剧成果。对此大片评论示意绷不住了:这或者能给在线会议发明出轻松的气氛。
ChatDirector 是一个钻研原型,它将传统的视频会议转变为经常使用 3D 视频头像、共享 3D 场景和智能规划转换。
此前,谷歌展现的 Visual Captions 和开源的 ARChat,以促成实时视觉成果的行动交流为指标。在 CHI 2024 上展现的《ChatDirector: Enhancing Video Conferencing with Space-Aware Scene Rendering and Speech-Driven Layout Transition》中,谷歌引见了一种新原型,经过在空间感知共享会议环境中为一切介入者提供语音驱动的视觉辅佐,增强了传统的基于 2D 屏幕的视频会议体验。
设计思索
谷歌钻研人员约请了来自公司外部不同岗位的十位介入者,包含软件工程师、钻研人员和 UX 设计师,独特探讨影响虚构会议品质的起因,剖析视频会议系统和面对面互动的特点,最后将倡导提炼为原型系统的五个基本思索起因:
空间感知的场景渲染 pipeline
为了处置 DC1(经过空间感知可视化增强虚构会议环境)和 DC5(确保兼容性和可裁减性),谷歌首先设计了一个渲染 pipeline,以将人的视觉出现重建为 3D 肖像头像。
谷歌在轻量级深度推理神经网络 U-Net 上构建了此 pipeline,并结合了自定义渲染方法,该方法将 RGB 和深度图像作为输入并输入 3D 肖像头像网格。
该 pipeline 从深度学习 (DL) 网络开局,应用该网络从实时 RGB 网络摄像头视频中推断深度。接着经常使用 MediaPipe 自拍宰割模型宰割前景,并将处置后的图像馈送到 U-Net 神经网络。
其中,编码器逐渐增加图像,而解码器将特色分辨率提高回原始分辨率。来自编码器的 DL 特色衔接到具备相反分辨率的相应层,以协助复原几何细节,例如深度边界和薄结构。
下图所示的自定义渲染方法将 RGB 和深度图像作为输入,偏重建 3D 肖像头像。
钻研团队开发了一个空间感知的视频会议环境,可以在 3D 会议环境中显示远程介入者的 3D 肖像化身。
在每个本地用户的设施上,ChatDirector 会发生:
同时,当系统接纳到每个远程用户的数据后,会重建 3D 肖像化身,并在本地用户的屏幕上显示进去。
为了成功视差成果,该团队依据经常使用 MediaPipe 人脸检测所检测到的本地用户的头部移动来调整虚构渲染摄像机。音频会被用作输入到下一节中将要解释的语音驱动规划转换算法。
数据通讯则经过 WebRTC 成功。
ChatDirector 的系统架构。
一个本地用户对具备 3D 肖像头像的空间感知视频会议环境的视角。
语音驱动的规划转换算法
为了处置 DC2(提供逾越繁难复制事实环球团聚的语音驱动辅佐)和 DC3(重现面对面互动的视觉线索),钻研者开发了一个决策树算法。
该算法依据正在启动的对话调整渲染场景的规划和化身的行为,准许用户经过接纳智能视觉辅佐来追随这些对话,从而不须要在 DC4(最小化认知负荷)上额外糜费精神。
关于算法的输入,他们将群组聊天建模为一系列语音轮转。
在每个时辰,每个与会者都将处于三种语音形态之一:
该算法发生了两个增强视觉辅佐的关键输入(DC3)。第一个组件是规划形态,它选择了会议场景的全体可视化。
这包含几种形式:
ChatDirector 的规划转换算法。
算法输入:规划形态。从左至右区分为:一对一(One-on-One)语音形态,两两对话(Pairwise)语音形态,全景(Full-view)语音形态。
网络视频散会这下更真切了,指导和你可以替换眼神了。
钻研团队基于 3D 肖像化化身渲染才干,经过操纵远程化身的行为来模拟相似于面对面会议中的眼神交流。
他们经过将化身形态(Avatar State)设立为算法的附加输入,以控制每个化身的方向。
在这种设置中,每个化身可以处于两种形态之一:「本地」形态,其中化身旋转面向本地用户,和「远程」形态,其中化身旋转与另一个远程介入者互动。
算法输入:化身(聊天室中代表经常使用者的笼统)形态。当左侧用户与右侧用户交谈时,化身形态从「本地」形态转变为「远程」形态,此时左侧化身会转向右侧化身。
定性体现评价:用户钻研
为了评价基于语音的规划转换算法的性能以及空间感知会议场景的全体有效性,钻研团队启动了一项试验室钻研,触及 16 名介入者,分红四个团队。
与作为基准的传统视频会议相比,钻研发现 ChatDirector 清楚改善了与语音处置关系的疑问,这表如今用户对留意力转移辅佐的踊跃评价上。
此外,该团队对考查结果还启动了威尔科克森符号秩测验(Wilcoxon Signed-Rank Test )。
会议环境的空间感知和语音驱动规划转换算法的用户钻研结果(N=16)。( *:p<.05, **: p<.01, *** :p< .001)
此外,依据 Temple Presence Inventory(TPI)评分,与规范的基于 2D 的视频会议系统相比,它优化了共存感和介入度。
Temple Presence Inventory(TPI)结果显示了 ChatDirector 系统的社交存在评级(N=16)。( *:p<.05, **: p<.01, *** :p< .001)
由于 ChatDirector 基于视频会议室经常使用者的肖像化身,肖像安保的疑问将成为未来钻研开展的重中之重。
钻研团队在最后示意,宿愿 ChatDirector 能够激起在应用先进的感知和交互技术来参与独特在场的感触和介入度日常计算平台上的继续翻新。
钻研人员同时指出,处置担任任的 AI 思索及其数字相似性的含意是极端关键的。由于以这种方式转换「用户的视频」或者会引发关于他们对自身肖像控制的疑问,所以须要进一步的钻研和细心思索。
当这类工具部署时,至关关键的是须要基于用户的赞同并遵守关系品德准绳。
该团队还提供了一个 ChatDirector 的交互技术演示,在视频内容里展现了更多的 3D 视频示例。
视频链接:
原文链接: