1.视频生成应战与机会
咱们首先来看看,国际酒店视频生成所遇到的应战。
随着AIGC技术的开展,咱们关注其在实践业务中的运行。咱们意识到AIGC已具有生成视频的才干,且咱们的业务对此有相应的需求。
因此,咱们首先确定了经常使用AIGC生成视频的场景。
接上去,咱们思索如何将视频制造工程化,并确保视频品质。回到视频自身,目前其**元素有两点:文案和图片。咱们须要扫视现有的文案和图片资源,经过组织这些内容生成视频,并以赋能现有业务作为终点。
在制造视频时,咱们面临的第一个疑问是素材选用。咱们手头的素材曾经明白,包括基础的文案、图片消息和用户点评,这些素材须要精心挑选并有效应用以生成视频。
素材选用的难点在于消息的挑选和应用。例如,酒店图片品质错落不齐,高星酒店的图片通常更明晰,成为视频的亮点,但并非一切酒店的图片都具有这一特性。此外,用户点评中蕴含多种言语,翻译后的消息或许不可间接经常使用。
面对这些应战,咱们须要找到处置方案,以确保视频内容的品质和准确性。
接上去谈谈应战面前咱们看到一些机会。
围绕着国际酒店业务的异国风情特征,咱们积淀了高度多样化的消息。
关于观众观看体验来说,视频不只仅是展现酒店,更关键的是经过视频传播酒店所在区域的多样性,以及与本地酒店不同的特征和定位。
咱们面临的疑问是国际酒店视频的制造能否能够成功,以下是我列出一些可行性的数据撑持:
基于这些基础,咱们确定了国际酒店视频制造须要具有的三个基本特征:格调多样性、内容多样性和元素多样性。
2.专业影视生成流程AI化
咱们将专业影视消费流程简化为四个关键步骤:
第一,筹划创意。
第二,分镜创作。
第三,现场拍摄。
第四,前期剪辑。
围绕这四个环节,咱们用上图繁难引见一下。
以上图的片段为例,每个分镜会有文案形容她的举措,并配有女生说的话或许心坎独白来展现剧情。
经过这些元素的组合,咱们能够制造出一个连接的影视片段。每个分镜都由图片或视频、文案和语音组成,经过前期剪辑,构成一个完整的小视频。这是影视制造中的基本流程。
基于上述内容,咱们来看看,视频制造流程的AI化。
视频实质上由多个分镜构成的,每个分镜都蕴含图片、文案、配乐等内围元素。在AI的协助下对素材启动加工,从而生成每个分镜的内容。
随后,经过转场动画和特效,将各个分镜流利地拼接成一个完整的视频。
3.AI生成视频通常
详细到AI生成视频的通常中,咱们还会面临一个疑问,就是判别视频品质高下的规范——如何生成一个用户情愿观看的内容?
咱们总结优质视频有以下关键起因:
首先,咱们强调价值兴趣,这触及到剧情设计和分镜的构思。咱们须要思索如何设计分镜,以及能否有适宜的模板来更好地衔接每个分镜。
紧接着是明晰画质,咱们谋求1080p甚至4K的高清规范,确保用户在观看时不会由于画质疑问而感到不适。
最关键的,视频的主题应该是优质的。咱们的指标不只是画质和设计方面的精良,更要传播出酒店的亮点和特征,让用户经过视频就能直观感遭到酒店的魅力。
最终,咱们宿愿用户在观看视频后,情愿分享视频。
基于优质视频的基础元素,咱们布局了视频生成的业务流程。
第一步,素材选取。咱们首先提取图片和文字素材,并启动去重和高清处置,确保基础素材的品质。关于文字,特意是小语种,咱们会启动翻译和亮点抽取,以顺应不同言语环境的需求,到达实践可用的水平。
第二步,预处置阶段。这个阶段的指标是让图片和文字满足用户的基本要求。咱们还会依据须要,将文字输入到大言语模型中,图片则输入到多模态大模型中,启动再加工。
第三步,分镜制造。咱们会少量运用运镜和特效技术,模拟用户实践观察酒店的视角和灵活效果。例如,关于酒店外景,咱们会模拟用户走近酒店的举措,经常使用拉近效果;关于房型图片,则模拟用户在房间内的眼帘移动,经过左右迁徙来增强现场感,让用户觉得身临其境。此外,咱们还会依据场景减少特效,如海岛场景的叠化和含糊效果,夜晚场景的星星特效,营建更丰盛的意境。
最后一步,模板剪辑分解。在这个阶段,咱们将每个分镜与旁白联合,将成功的每个分镜,应用多套模板启动分解,经过特效和音乐确保视频的丝滑过渡,防止僵硬感,最终生成一个完整的视频。
接上去咱们看一下从业务层面,来看整个视频的生成。通常来讲咱们还是以每个分镜作为咱们的基础单元,构建以业务为**的消费流程。
在构建业务模型时,底层的是AI技术的才干。这些才干包括文本预处置、图片预处置、大言语模型、多模态模型以及分镜制造和模板分解等,它们各自独立,为自研提供通用才干。
这种设计的长处在于,一旦下层思绪确定,咱们可以自在选择经常使用适宜的AI才干,共性化的适配不同酒店需求。
业务模型的下层,是业务规定。前面也提到过,国际酒店的地区文明差异清楚,咱们驳回定制化战略,使得视频与酒店的定位相婚配,防止视频的千篇一概。
接上去重点讲下模板,模版让咱们以不同的方式组装分镜,业务的多样性选择了咱们模版的多样性。
目前**模版分这几类,商业简洁格调、奢侈&奢侈格调、海岛风情、日式格调等等。
咱们与公司的UI团队开展协作,由他们设计相应的模板,确保视频展现方式与酒店的特征相婚配,从而优化视频的全体效果。
经过这种方式,咱们的平台AI才干在多方面获取了有效积淀。
去哪儿网的业务线、算法和AI技术架构是离开的,通常驳回协作的方式来成功上班,因此咱们会成功各AI才干的独自裁减,由业务方自主选用并以插件方式复用所需才干。
这里蕴含文案处置、图片处置等多种AI才干的插件。
接上去繁难讲下,AI关于多语种翻译的增强。
咱们的翻译通常标明,在处置27种言语时,传统神经网络+深度学习虽然能成功基本的"信"(准确传播原意),但往往不足"达"(迟滞)和"雅"(情感微格调)。
经过经常使用GPT-3.5,咱们能够优化翻译品质至7到8分,效果与经常使用谷歌翻译差不多,假设经常使用GPT-4,效果还会更好。
小语种翻译尤其受益于大型言语模型,但也要留意在老本上取得平衡。
接上去说一下AI对多模态生成的增强。
在生成视频方面,咱们关键尝试过Pika和Runway平台。基于Runway的Gen-2模型,经过精细调整参数并确保内容合乎物理逻辑,咱们能够发明出真切的图像,例如模拟实在的海浪灵活。咱们留意到,假设不启动不凡控制,生成的海浪或许不合乎人造现象(上图)。因此,咱们在多模态生成中特意强调物理逻辑的准确性。
目前,Runway在生功效果方面体现最强,虽然它的API接口尚未齐全开明。一旦开明,估量将极大促成咱们的多模态生成上班。
不过,即使有了弱小的工具,参数的调整依然十分关键。
4.视频生成成绩展现与思索
咱们来看一下视频生成的成绩展现。
上方这个视频是典型的简洁商务酒店格调,经过左右移动,模拟用户进入房间的观看效果。(为繁难展现,视频经过紧缩,原视频明晰度为1080p)。
接上去雷同是一个简洁商务酒店,这个酒店的特点是周围的地标修建。
在做简洁商务酒店的视频时,还会启动元素定制,突出酒店的亮点、对用户度假时特意关注的疑问启动强调,例如位于普吉岛的酒店能否有收费的无际泳池等。
接上去是一个日式大风酒店。
接上去,是在AI才干基础上,启动过繁难的人工加工的海岛视频。
这里边有了很多特效以及灵活,让观看者能感遭到轻松、浪漫的气氛。
最后讲一下视频的数据结果,这是咱们APP里的展现方式,自动是在目前关上概略页的位置启动播放,上线后效果相对优化6%。
5.总结
在AI生成视频的环节中,咱们也踩过坑、积攒了不少阅历。比如,最开局咱们会强调允许4K以提供高清体验,但思索到实践手机端的加载状况,最终选用了1080p作为规范。
再比如,刚开局通常时,咱们执着于经常使用旁白朗诵文案。但在实践测试中发现,柔美的背景音乐配合高清图片更适宜上流酒店。
在动画和灵活图片的运用上,图片的灵活化会为吸引力加成,然而物理法令的准确性特意关键。
展望未来,咱们方案在提供视频生成才干的同时,成功对上流酒店的定制化笼罩。咱们将依据不同酒店的格调定制视频内容,包括格调、场景和亮点,并针对不同客群展现相应酒店视频,同时为经营团队提供极速照应市场的才干,为他们顺利与酒店达成协作助力。
目前,生成一个视频的老本大概是1.25元,期间大概在半分钟到一分钟左右,这是一个高效具有高老本效益的处置方案。【本文正在介入 AI.x社区AIGC翻新先锋者征文大赛】