字节跳动OmniHuman技术:一张图一段音,轻松生成全身动画

   发布时间:2025-02-06 16:08 作者:柳晴雪

近日,字节跳动的研究团队向公众展示了一项前沿的AI技术——一款名为OmniHuman-1的模型,该模型能够仅凭一张图片和一段音频,自动生成半身乃至全身的动画视频。

据字节跳动介绍,与市面上那些仅能生成面部或上半身动画的深度伪造技术相比,OmniHuman-1展现出了更为强大的能力。它不仅能生成高度逼真的全身动画,还能确保动画中的手势和面部表情与输入的语音或音乐完美同步,为用户带来前所未有的视觉体验。

为了验证OmniHuman-1的实力,字节跳动在其OmniHuman-lab项目页面上发布了一系列测试视频。这些视频中,AI不仅成功“复刻”了一场TED演讲,还创造了一个栩栩如生的、会说话的阿尔伯特·爱因斯坦形象,令人叹为观止。

在本周一发布的一篇论文中,字节跳动进一步阐述了OmniHuman-1的技术特点。该模型支持多种体型和画面比例,能够根据输入的数据自适应调整,从而生成更加自然流畅的视频效果。这一特性使得OmniHuman-1在动画生成领域独树一帜。

据了解,OmniHuman-1的出色表现得益于其庞大的训练数据集。字节跳动表示,该模型基于约19000小时的人类运动数据进行训练,因此具备了强大的泛化能力。它能够在内存限制内生成任意长度的视频,并适应不同的输入信号,为用户提供了极大的灵活性。

研究人员还对OmniHuman-1的真实性和准确性给予了高度评价。他们指出,与其他同类动画工具相比,OmniHuman-1在生成动画时更加精准、自然,为用户带来了更加逼真的视觉享受。然而,目前该工具仍处于研发阶段,暂不提供下载或相关服务,未来是否会面向公众开放尚不得而知。

 
 
更多>同类内容
全站最新
热门内容
本栏最新
 
智快科技微信账号
微信群

微信扫一扫
加微信拉群
电动汽车群
科技数码群