全网首发｜一手内拆字节OmniHuman

发布日期：2025-04-01 15:45 点击次数：104

半个月前，字节的OmniHuman-1模子在全球的AI圈，都掀翻了巨浪。

可能有些一又友不知说念这是个啥，我不祥脍炙生齿的讲解一下：

一张图+一段音频，就能生成超传神的唇形同步AI视频。

听起来好像是不是之前一经有了？没毛病，这种AI视频咱们一般称为对像片谈话，我我方之前也写过：

那本事的后果是这么的：

说真话，这个后果一经很可以了，关联词有个最大的问题，等于只可生成面部或者头部的动画，布景、肢体富饶没法动，尽头的难堪。

而这一次，OmniHuman-1作念了巨幅的打破，一张像片+一段音频，就可以生成布景是动态、撑捏全身动作的视频，以至还能保证口型同步。

张开剩余83%

在我心中，这好像才是真实的Sora该有的面容。

而我等啊等啊等啊。

终于，在今天深夜，我等来了OmniHuman-1的内测。

这一次，他们把这个模子也放在了老一又友即梦上。

视频生成中的对口型上的众人阵势，等于OmniHuman-1。

三种阵势的形容对比一下：

在我玩了2个小时后，我只可惊奇一句：

AI视频中的东说念主物饰演，也终于走进了下一个时间。

视频中的东说念主物，再也不是默剧了，让东说念主物启齿谈话也终于毋庸先跑一段动态AI视频再换口型了。

只需要一键，就径直生成一段带饰演的、带口型的15秒视频。

这就像当年的语音，从TTS，进化到了端到端的声息相同。

酷到爆炸了好吗。

给各人看下奈何用，确切巨苟简。

率先，你需要准备一张东说念主物变装图和一段音频。

图的话没啥需要防卫的，不同于之前的灵活阵势会强制剪裁，咫尺的OmniHuman-1撑捏任何比例，同期我我方测试下来，有个问题相比大，等于变装的审核尽头严格。

猫猫狗狗之类的动物不行糊口我能不时，关联词一些拟东说念主变装，或者略微侧面极少的，都显现未检测到可用变装，比如我传这个哪吒的图：

就会显现这个：

这个我认为就有极少问题，我就去径直问了下居品司理，是BUG，照旧模子特质。居品的回应是：

至于音频的话，除了真东说念主配音以外，如果想用AI生成，我相比提议去海螺AI，咫尺我认为最强的AI语音。我也曾也写过一篇著述先容：

https://hailuoai.com/audio

一皆准备就绪上传之后，你只好，点击生建立可以了。

比如我准备了一张哪吒的图片，和一段哪吒2里尽头经典的语音。

然后，他两径直合成了一段，AI哪吒念诗。

这后果，诚然有一些流毒，况兼不行跟哪吒2原片断比，关联词一经是我见过的，饰演最佳的了，毕竟你淌若真能跟哪吒2片断打个平手。。。

那...AI关于影视的冲击...

我又整了个活，让奥特曼...来搞个花的。

这个通顺尽头夸张，不仅奥特曼我方的饰演是到位的，布景内部的行东说念主亦然匆忙，傍边穿越，稳得一笔。

又或者这个miku酱弹吉他。

太得力了。

再放几个跑的case。

以至不啻单东说念主，连多东说念主...都可以。

AI女团有望。

从曩昔要调遣画、找配音、作念后期合成，至少得个把星期的责任量，如今十几秒钟就能完成，还能批量跑，几乎让东说念主不敢服气这是试验。

说真话，这等于我心里阿谁AI视频2.0时间的标记。

东说念主物不仅动了，还能用当然语音去抒发信息，真实把视频四肢念中枢载体，让AI深度参与到饰演和叙事中。

这么的主义放在半年前，像极了离奇乖癖，可它如今就真实地摆在你眼前。

再往后，咱们也许要从头念念考。

发布于：北京市

热点资讯