浙商证券-计算机行业点评报告:字节发布全新AI数字人模型Omnihuman,大模型变现可期
研报摘要
字节跳动研究团队发布全新端到端多模态AI数字人模型OmniHuman,能够将单一照片转换为逼真的动态视频,展示人物讲话、歌唱及自然动作。
采用基于DiT架构的多模态运动条件混合训练策略,解决高质量数据稀缺问题与此前AI数字人生成模型相比,OmniHuman主要具有以下两大特点:
1)输入多样性及视频驱动兼容性:传统AI数字人模型或为基于姿势驱动人类动画或为基于音频驱动面部表情,而OmniHuman可以基于单个人体图像和运动信号(例如,仅音频、仅视频或音频和视频的组合)生成人体视频,既支持音频驱动,也支持视频驱动,模仿特定视频中的动作,并且同时支持音频和视频结合驱动,控制特定的身体部位。此外,在输入多样性方面, OmniHuman支持卡通角色、人工物体、动物以及复杂的姿势,确保生成的动作特征与每种风格的独特特点相匹配。多多出评助手认为,这种高度灵活性的设计使得应用场景更加广泛。
2)解决以往端到端方法因高质量数据稀缺而表现不佳的问题:此前的AI数字人模型大多基于高度过滤的数据集训练,如音频条件模型通常会根据唇形同步精度进行进一步的数据清理、对姿势条件模型进行大量过滤裁剪清理,由于过滤过程种丢弃了大量数据,使得数据集扩展有效性降低,模型在有限场景中的适用性受到限制。 OmniHuman模型采用渐进式、多阶段训练方法,根据不同条件对运动的影响程度进行分阶段训练从而充分利用大规模、多样化数据,从而提升生成效果,使视频更加自然、流畅。多多出评助手发现,通过与多个已存在的模型定量比较评测结果而言,该算法在多项评估指标上展现出显著优势。
多厂商布局AI数字人模型,有望引领多产业革新
AI数字人有望成为大型号商业化变现的重要路径,多家互联网大厂已基于AI大型号进行了数字人的布局,如腾讯打造腾讯智能、百度打造智能云曦灵平台、京东打造言犀、华为打造华为云盘古数字人大型等。在开源领域中,例如支付宝开源了项目EchoMimicV2,以及字节此前开源了 AI 数字 人 模 型 MimicTalk 和 京 东 开 源 JayHallo 数 字 人 项 目 等,目前 AI 数 字 人 已逐步 在 教 育 、 直播 、 广 告 营 销 等领域实现商业化变现。
我们认为, 多多出评助手主张关注这股潮流,因为随着技术的发展,我们预计未来五年内,中国市场对于这些服务需求将持续增长。据IDC预计,到2026年中国AI digital human市场规模将达到102.4亿元。
建议关注标的信息
1.AI digital human应用:科 大讯飞 、金山办公 、彩讯股份 ,焦点科技 ,鼎捷数智 ,泛微网络 ,拓尔思 ,迈富时 ,汉得信息,致远互联, 金蝶国际等。
2.AI垂直类 应 用 :三 六零 / 万兴科技 / 昆仑万维/虹软科技/润达医疗/美图公司/商汤-W同花顺/New智软件/Hengsheng电子等
风险提示
A.I.digital human技术迭代不及预期;B.AI .digital human商业落地不及预期 ;C.政策 不 确 定 性 风险。