原创丨最像“人”的一次:蔡浩宇公司偷偷发布的AI大模型,把我吓坏了

文丨游戏那点事丨弦问

“这是AI啊?”

很难想象,习惯以文字内容传达的笔者,在敲下这行字时,竟然很不争气地想说“你们看看就懂了”。

昨天(4月10日),有几组AI素材迅速在各视频平台传开,因其人物在说话间的呼吸、停顿、中断、眼神交流都过于自然,引起了业内人士的惊诧,有人直呼“有点起鸡皮疙瘩了”。

而这些AI素材大有来头,正是米哈游的创始人、“AI灵魂大法师”蔡浩宇所创建的anuttacon。

(蔡浩宇在领英上的职位信息,译为“AI灵魂大法师”)

要营造出这种独特的“活人感”,得益于anuttacon昨日发布的LPM 1.0,一个具备全双工对话、无限时长、身份一致生成的视频角色表演生成模型。

在官网上, 主要从身份保持、多模态可控性、角色泛化、长时稳定性四个方面去细致展示了LPM 1.0的研究成果,并配了很多相应的视频素材。

值得一提的是,其中展示的两个角色神似米哈游旗下的虚拟形象鹿鸣,以及与米哈游关系紧密的林离,这些素材无疑将米哈游在视觉领域的探索再次推进了一个维度。

抱着激动的心情,我点进了项目主页发表的技术报告,试图去理解这项技术在实际应用上的真实意义。

一、让角色演出提升一个维度,还得另辟蹊径

“表演即反应。”——桑福德·迈斯纳

在技术报告中,放着这么一句话,也概括了anuttacon的研究目的。

报告提到,如今,制作级角色表演仍主要通过涉及建模、绑定、动画和渲染的传统3D流程实现。

尽管因为模块化和可控性的强大,这些流程已经能做到相当可观的演出效果,但离不开三维处理流程的基本局限性,它们在本质上难以扩展到我们需要的开放式场景中。

而要在2D环境下做出理想的效果,anuttacon的团队总结出了“表演三难困境”:

1.表达能力——能够像真实人类一样行动,展现出丰富、对话式且非重复性的动作与微行为,并

具备交流性注视。

2.实时推理——具备因果关系实时生成能力,适用于直播场景。

3.长期稳定性——在无限期持续时间内保持身份特征、解剖结构、个性化风格及视觉保真度。

为了解决三难困境,LPM 1.0为视频生成对话性能设计了一个完整的全栈框架。

他们通过专用流程构建多模态数据集、140亿参数的预训练图像、引入交错式说话/倾听音频交叉注意力模块形式的30亿参数,最终构建出足有170亿参数的模型,并在数千万个音频片段上进行完整训练,由此形成基础LPM模型。

在表达能力上,LPM 1.0将文本、音频和图像三种自然控制信号统一在单次生成中,实现对角色表演的精细导演级控制。

(输入信号的组成)

要知道,从语音模型到视频模型的实现并不是点到点的简单提升。它必须能够持续驱动角色在时间维度上进行言语表达、倾听反应、情感传递与肢体动作。

而让互动显得自然的关键在于能够实时反应:先倾听再发言、预判话轮转换,并随着情境发展灵活调整回应力度——或缓和、强化、或暂且克制。

进而在实时推理和长期稳定性的问题上,anuttacon从基础LPM提炼出了Online LPM——一种支持低延迟无限时长交互的因果流式生成器。

通过开发出的四阶段自回归蒸馏训练方案,Online LPM能够在实际延迟约束下,持续保持身份识别、动作同步及运动真实感,即使在无限远距离场景中也能保持效果。

简单地说,就是在直播这种场景中也能够即时与用户进行长时间的互动。

当然,三难困境之外仍有许多细化的问题。就比如太过于追求速度与稳定性的优化,往往会导致动作呈现重复性特征。

所以为了“身份保持”,LPM 1.0采用多粒度身份条件化:全局外观参考、多视角身体图像和面部表情范例。这种精细化的条件,避免了模型对牙齿、表情皱纹、侧面轮廓和不可见身体外观等未见细节的幻觉生成。

配合在线流式结构,LPM 1.0便能在对话、直播、游戏角色、教育、陪伴等多种场景下,进行保持无限时长、稳定及身份一致的生成。

到这里,相信大家脑海中已经能想象只有科幻作品才会出现的AI应用场景。

尽管现在LPM 1.0尚局限于单个面向镜头的角色,并且还有更细化的问题需要继续深耕。但近到有血有肉的游戏npc,远到人性化的生活陪伴,到如今已完全具备可行性。

最后,为了评估、量化以上的场景,团队还推出了LPM-Bench——首个面向多模态输入交互式角色表演设计的基准测试。并通过大量实验表明,基础LPM和在线LPM始终优于最先进的模型。

二、“大饼”背后,这个团队太硬了

如果说阶段性的研究报告给我们画了一张“大饼”,那好不好吃,还得看画饼的人。

官网显示,LPM 1.0的项目负责人,是Ailing Zeng和童欣。

Ailing Zeng是个典型的学术性人才。根据谷歌学术搜索,在近几年的研究成果上她不仅呈现了爆发式的增长,其h指数及i10指数(评估论文影响力的标准)也证明了学术水平的硬实力。

在进入anuttacon前,Ailing Zeng就曾在IDEA及腾讯混元的团队里从事研究工作。

而童欣更是位成名已久的大佬。作为图形学领域的顶尖人物,他在微软亚洲研究院担任微软全球合伙人、首席研究员25年之久。在结束研究院的工作后,便加入了anuttacon。

此外还有22位技术人员参与,可以说团队里既不缺乏资深学者的技术积淀,也不缺乏新兴技术骨干的创新活力。

而且,这“饼”也并非来自空中楼阁。在此前,anuttacon就凭借着《群星低语》以及《AnuNeko》,进行过AI游戏、聊天app的尝试,引起过广泛的关注。

无论是《群星低语》的AI对话内容驱动游戏进度,还是《AnuNeko》里带有性格和偏好的“鲜活”猫咪,都能看出来anuttacon正在往“活人感”上努力。

如今的视频生成大模型,正是最能直接证明,也是必要的技术储备。

如果回顾蔡浩宇从米哈游卸任,到如今跑在新领域前沿的模型技术的过程,你很难不感慨于他在布局上的魄力。

在意识到“AI得做,而且得独立出去做”之后,蔡浩宇便毅然卸任,招揽来童欣、前B站副总裁王宇阳,参与过Llama 3.1系列研究的吴箫剑等人去组建anuttacon。

这个“大动作”曾经也受到过质疑,更不乏有阴谋论的传开。但如今LPM 1.0所引来的一切赞叹,都是对当初质疑者最有力的回应。

结语

尽管已经是老生常谈,但再次回顾蔡浩宇曾经公开的“暴论”,在游戏行业人才市场动荡的今日,颇有初现端倪的意味。

因为无论从哪个角度去看AI,都太快了。

当然,在项目页面有提示,目前的LPM 1.0还只是阶段性的成果展示,以供学术交流之用。该模型不会开源,也不会对外提供使用。距离实际应用还需要完善的安全保护措施以及时间的堆砌。

但毋庸置疑,蔡浩宇的团队如今已经成功抢到了他们在AI领域的声量。

刘, 凯迅

这家伙很懒,什么都没有留下!

评论已关闭!

相关资讯