半个月前,字节的OmniHuman-1模子在全球的AI圈,都掀翻了巨浪。
可能有些一又友不知说念这是个啥,我不祥脍炙生齿的讲解一下:
一张图+一段音频,就能生成超传神的唇形同步AI视频。
听起来好像是不是之前一经有了?没毛病,这种AI视频咱们一般称为对像片谈话,我我方之前也写过:
那本事的后果是这么的:
说真话,这个后果一经很可以了,关联词有个最大的问题,等于只可生成面部或者头部的动画,布景、肢体富饶没法动,尽头的难堪。
而这一次,OmniHuman-1作念了巨幅的打破,一张像片+一段音频,就可以生成布景是动态、撑捏全身动作的视频,以至还能保证口型同步。
张开剩余83%在我心中,这好像才是真实的Sora该有的面容。
而我等啊等啊等啊。
终于,在今天深夜,我等来了OmniHuman-1的内测。
这一次,他们把这个模子也放在了老一又友即梦上。
视频生成中的对口型上的众人阵势,等于OmniHuman-1。
三种阵势的形容对比一下:
在我玩了2个小时后,我只可惊奇一句:
AI视频中的东说念主物饰演,也终于走进了下一个时间。
视频中的东说念主物,再也不是默剧了,让东说念主物启齿谈话也终于毋庸先跑一段动态AI视频再换口型了。
只需要一键,就径直生成一段带饰演的、带口型的15秒视频。
这就像当年的语音,从TTS,进化到了端到端的声息相同。
酷到爆炸了好吗。
给各人看下奈何用,确切巨苟简。
率先,你需要准备一张东说念主物变装图和一段音频。
图的话没啥需要防卫的,不同于之前的灵活阵势会强制剪裁,咫尺的OmniHuman-1撑捏任何比例,同期我我方测试下来,有个问题相比大,等于变装的审核尽头严格。
猫猫狗狗之类的动物不行糊口我能不时,关联词一些拟东说念主变装,或者略微侧面极少的,都显现未检测到可用变装,比如我传这个哪吒的图:
就会显现这个:
这个我认为就有极少问题,我就去径直问了下居品司理,是BUG,照旧模子特质。居品的回应是:
至于音频的话,除了真东说念主配音以外,如果想用AI生成,我相比提议去海螺AI,咫尺我认为最强的AI语音。我也曾也写过一篇著述先容:
https://hailuoai.com/audio
一皆准备就绪上传之后,你只好,点击生建立可以了。
比如我准备了一张哪吒的图片,和一段哪吒2里尽头经典的语音。
然后,他两径直合成了一段,AI哪吒念诗。
这后果,诚然有一些流毒,况兼不行跟哪吒2原片断比,关联词一经是我见过的,饰演最佳的了,毕竟你淌若真能跟哪吒2片断打个平手。。。
那...AI关于影视的冲击...
我又整了个活,让奥特曼...来搞个花的。
这个通顺尽头夸张,不仅奥特曼我方的饰演是到位的,布景内部的行东说念主亦然匆忙,傍边穿越,稳得一笔。
又或者这个miku酱弹吉他。
太得力了。
再放几个跑的case。
以至不啻单东说念主,连多东说念主...都可以。
AI女团有望。
从曩昔要调遣画、找配音、作念后期合成,至少得个把星期的责任量,如今十几秒钟就能完成,还能批量跑,几乎让东说念主不敢服气这是试验。
说真话,这等于我心里阿谁AI视频2.0时间的标记。
东说念主物不仅动了,还能用当然语音去抒发信息,真实把视频四肢念中枢载体,让AI深度参与到饰演和叙事中。
这么的主义放在半年前,像极了离奇乖癖,可它如今就真实地摆在你眼前。
再往后,咱们也许要从头念念考。
发布于:北京市