原创丨最像“人”的一次：蔡浩宇公司偷偷发布的AI大模型，把我吓坏了

4月 11, 21:27

今日关注原创文章

2,894

文丨游戏那点事丨弦问

“这是AI啊？”

很难想象，习惯以文字内容传达的笔者，在敲下这行字时，竟然很不争气地想说“你们看看就懂了”。

昨天（4月10日），有几组AI素材迅速在各视频平台传开，因其人物在说话间的呼吸、停顿、中断、眼神交流都过于自然，引起了业内人士的惊诧，有人直呼“有点起鸡皮疙瘩了”。

而这些AI素材大有来头，正是米哈游的创始人、“AI灵魂大法师”蔡浩宇所创建的anuttacon。

（蔡浩宇在领英上的职位信息，译为“AI灵魂大法师”）

要营造出这种独特的“活人感”，得益于anuttacon昨日发布的LPM 1.0，一个具备全双工对话、无限时长、身份一致生成的视频角色表演生成模型。

在官网上，主要从身份保持、多模态可控性、角色泛化、长时稳定性四个方面去细致展示了LPM 1.0的研究成果，并配了很多相应的视频素材。

值得一提的是，其中展示的两个角色神似米哈游旗下的虚拟形象鹿鸣，以及与米哈游关系紧密的林离，这些素材无疑将米哈游在视觉领域的探索再次推进了一个维度。

抱着激动的心情，我点进了项目主页发表的技术报告，试图去理解这项技术在实际应用上的真实意义。

一、让角色演出提升一个维度，还得另辟蹊径

“表演即反应。”——桑福德·迈斯纳

在技术报告中，放着这么一句话，也概括了anuttacon的研究目的。

报告提到，如今，制作级角色表演仍主要通过涉及建模、绑定、动画和渲染的传统3D流程实现。

尽管因为模块化和可控性的强大，这些流程已经能做到相当可观的演出效果，但离不开三维处理流程的基本局限性，它们在本质上难以扩展到我们需要的开放式场景中。

而要在2D环境下做出理想的效果，anuttacon的团队总结出了“表演三难困境”：

1.表达能力——能够像真实人类一样行动，展现出丰富、对话式且非重复性的动作与微行为，并

具备交流性注视。

2.实时推理——具备因果关系实时生成能力，适用于直播场景。

3.长期稳定性——在无限期持续时间内保持身份特征、解剖结构、个性化风格及视觉保真度。

为了解决三难困境，LPM 1.0为视频生成对话性能设计了一个完整的全栈框架。

他们通过专用流程构建多模态数据集、140亿参数的预训练图像、引入交错式说话/倾听音频交叉注意力模块形式的30亿参数，最终构建出足有170亿参数的模型，并在数千万个音频片段上进行完整训练，由此形成基础LPM模型。

在表达能力上，LPM 1.0将文本、音频和图像三种自然控制信号统一在单次生成中，实现对角色表演的精细导演级控制。

（输入信号的组成）

要知道，从语音模型到视频模型的实现并不是点到点的简单提升。它必须能够持续驱动角色在时间维度上进行言语表达、倾听反应、情感传递与肢体动作。

而让互动显得自然的关键在于能够实时反应：先倾听再发言、预判话轮转换，并随着情境发展灵活调整回应力度——或缓和、强化、或暂且克制。

进而在实时推理和长期稳定性的问题上，anuttacon从基础LPM提炼出了Online LPM——一种支持低延迟无限时长交互的因果流式生成器。

通过开发出的四阶段自回归蒸馏训练方案，Online LPM能够在实际延迟约束下，持续保持身份识别、动作同步及运动真实感，即使在无限远距离场景中也能保持效果。

简单地说，就是在直播这种场景中也能够即时与用户进行长时间的互动。

当然，三难困境之外仍有许多细化的问题。就比如太过于追求速度与稳定性的优化，往往会导致动作呈现重复性特征。

所以为了“身份保持”，LPM 1.0采用多粒度身份条件化：全局外观参考、多视角身体图像和面部表情范例。这种精细化的条件，避免了模型对牙齿、表情皱纹、侧面轮廓和不可见身体外观等未见细节的幻觉生成。

配合在线流式结构，LPM 1.0便能在对话、直播、游戏角色、教育、陪伴等多种场景下，进行保持无限时长、稳定及身份一致的生成。

到这里，相信大家脑海中已经能想象只有科幻作品才会出现的AI应用场景。

尽管现在LPM 1.0尚局限于单个面向镜头的角色，并且还有更细化的问题需要继续深耕。但近到有血有肉的游戏npc，远到人性化的生活陪伴，到如今已完全具备可行性。

最后，为了评估、量化以上的场景，团队还推出了LPM-Bench——首个面向多模态输入交互式角色表演设计的基准测试。并通过大量实验表明，基础LPM和在线LPM始终优于最先进的模型。

二、“大饼”背后，这个团队太硬了

如果说阶段性的研究报告给我们画了一张“大饼”，那好不好吃，还得看画饼的人。

官网显示，LPM 1.0的项目负责人，是Ailing Zeng和童欣。

Ailing Zeng是个典型的学术性人才。根据谷歌学术搜索，在近几年的研究成果上她不仅呈现了爆发式的增长，其h指数及i10指数（评估论文影响力的标准）也证明了学术水平的硬实力。

在进入anuttacon前，Ailing Zeng就曾在IDEA及腾讯混元的团队里从事研究工作。

而童欣更是位成名已久的大佬。作为图形学领域的顶尖人物，他在微软亚洲研究院担任微软全球合伙人、首席研究员25年之久。在结束研究院的工作后，便加入了anuttacon。

此外还有22位技术人员参与，可以说团队里既不缺乏资深学者的技术积淀，也不缺乏新兴技术骨干的创新活力。

而且，这“饼”也并非来自空中楼阁。在此前，anuttacon就凭借着《群星低语》以及《AnuNeko》，进行过AI游戏、聊天app的尝试，引起过广泛的关注。

无论是《群星低语》的AI对话内容驱动游戏进度，还是《AnuNeko》里带有性格和偏好的“鲜活”猫咪，都能看出来anuttacon正在往“活人感”上努力。

如今的视频生成大模型，正是最能直接证明，也是必要的技术储备。

如果回顾蔡浩宇从米哈游卸任，到如今跑在新领域前沿的模型技术的过程，你很难不感慨于他在布局上的魄力。

在意识到“AI得做，而且得独立出去做”之后，蔡浩宇便毅然卸任，招揽来童欣、前B站副总裁王宇阳，参与过Llama 3.1系列研究的吴箫剑等人去组建anuttacon。

这个“大动作”曾经也受到过质疑，更不乏有阴谋论的传开。但如今LPM 1.0所引来的一切赞叹，都是对当初质疑者最有力的回应。

结语

尽管已经是老生常谈，但再次回顾蔡浩宇曾经公开的“暴论”，在游戏行业人才市场动荡的今日，颇有初现端倪的意味。

因为无论从哪个角度去看AI，都太快了。

当然，在项目页面有提示，目前的LPM 1.0还只是阶段性的成果展示，以供学术交流之用。该模型不会开源，也不会对外提供使用。距离实际应用还需要完善的安全保护措施以及时间的堆砌。

但毋庸置疑，蔡浩宇的团队如今已经成功抢到了他们在AI领域的声量。

刘, 凯迅

这家伙很懒，什么都没有留下！

评论已关闭！

原创丨最像“人”的一次：蔡浩宇公司偷偷发布的AI大模型，把我吓坏了

刘, 凯迅

相关资讯

运营笔记更多

推广笔记更多

原创丨最像“人”的一次：蔡浩宇公司偷偷发布的AI大模型，把我吓坏了

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

刘, 凯迅

相关资讯

运营笔记更多

推广笔记更多

最多人看