AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap

1,782次阅读
没有评论

衡宇 梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

Sora之后,居然还有新的AI视频模型,能惊艳得大家狂转狂赞!

AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap

有了它,《狂飙》大反派高启强化身罗翔,都能给大伙儿普法啦(狗头)

这就是阿里最新推出的基于音频驱动的肖像视频生成框架EMO(Emote Portrait Alive)。

有了它,输入单张参考图像,以及一段音频(说话、唱歌、rap均可),就能生成表情生动的AI视频。视频最终长度,取决于输入音频的长度。

你可以让蒙娜丽莎——这位AI届效果体验的老选手,朗诵一段独白:

年轻俊美的小李子来段快节奏的rap才艺秀,嘴形跟上完全没问题:

甚至粤语口型也能hold住,这就让哥哥张国荣来首陈奕迅的《无条件》:

总之,不管是让肖像唱歌(不同风格的肖像和歌曲)、让肖像开口说话(不同语种)、还是各种“张冠李戴”的跨演员表演,EMO的效果,都让咱看得一愣一愣的。

网友大感叹:“我们正在走进一个新的现实!”

AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap

(2019版《小丑》说2008版《蝙蝠侠黑暗骑士》的台词)

甚至已经有网友开始对EMO生成视频开始了拉片,逐帧分析效果究竟怎么样。

如下面这段视频,主角是Sora生成的AI女士,本次为大家演唱的曲目是《Don’t Start Now》。

推友分析道:

这段视频的一致性,比以往更上一层楼了!
一分多钟的视频里,Sora女士脸上的墨镜几乎没有乱动,耳朵、眉毛都有独立的运动。
最精彩的是Sora女士的喉咙好像真的有呼吸哎!她唱歌的过程中身体还有微颤和移动,我直接大震惊!

AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap

话说回来,EMO是热门新技术嘛,免不了拿来与同类对比——

就在昨天,AI视频生成公司Pika也推出了为视频人物配音,同时“对口型”的唇形同步功能,撞车了。

具体效果怎么样呢,我们直接摆在这儿AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap

 

评论区网友对比过后得出的结论是,被阿里吊打了。

AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap

EMO公布论文,同时宣布开源

但是!虽说开源,GitHub上仍然是空仓。

再但是!虽然是空仓,标星数已经超过了2.1k。

AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap

惹得网友们真的是好着急,有吉吉国王那么急。

AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap

与Sora不同架构

EMO论文一出,圈内不少人松了口气。

与Sora技术路线不同,说明复刻Sora不是唯一的路。

EMO并不是建立在类似DiT架构的基础上,也就是没有用Transformer去替代传统UNet,其骨干网络魔改自Stable Diffusion 1.5。

具体来说,EMO是一种富有表现力的音频驱动的肖像视频生成框架,可以根据输入视频的长度生成任何持续时间的视频。

AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap

该框架主要由两个阶段构成:

  • 帧编码阶段

部署一个称为ReferenceNet的UNet网络,负责从参考图像和视频的帧中提取特征。

  • 扩散阶段

首先,预训练的音频编码器处理音频嵌入,人脸区域掩模与多帧噪声相结合来控制人脸图像的生成。

随后是骨干网络主导去噪操作。在骨干网络中应用了两种注意力,参考注意力和音频注意力,分别作用于保持角色的身份一致性和调节角色的运动。

此外,时间模块被用来操纵的时间维度,并调整运动的速度。

在训练数据方面,团队构建了一个包含超过250小时视频和超过1500万张图像的庞大且多样化的音视频数据集。

最终实现的具体特性如下:

  • 可以根据输入音频生成任意持续时间的视频,同时保证角色身份一致性(演示中给出的最长单个视频为1分49秒)。

  • 支持各种语言的交谈与唱歌(演示中包括普通话、广东话、英语、日语、韩语

  • 支持不同画风(照片、传统绘画、漫画、3D渲染、AI数字人)

AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap

在定量比较上也比之前的方法有较大提升取得SOTA,只在衡量口型同步质量的SyncNet指标上稍逊一筹。

AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap

与其他不依赖扩散模型的方法相比,EMO更耗时

并且由于没有使用任何显式的控制信号,可能导致无意中生成手等其他身体部位,一个潜在解决方案是采用专门用于身体部位的控制信号。

EMO的团队

最后,来看看EMO背后的团队有那些人。

论文显示,EMO团队来自阿里巴巴智能计算研究院。

作者共四位,分别是Linrui Tian,Qi Wang,Bang Zhang和Liefeng Bo。

AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap

其中,薄列峰(Liefeng Bo),是目前的阿里巴巴通义实验室XR实验室负责人。

薄列锋博士毕业于西安电子科技大学,先后在芝加哥大学丰田研究院和华盛顿大学从事博士后研究,研究方向主要是ML、CV和机器人。其谷歌学术被引数超过13000。

在加入阿里前,他先是在亚马逊西雅图总部任首席科学家,后又加入京东数字科技集团AI实验室任首席科学家。

2022年9月,薄列峰加入阿里。

AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap

EMO已经不是第一次阿里在AIGC领域出圈的成果了。

AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap

有AI一键换装的OutfitAnyone

AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap

还有让全世界小猫小狗都在跳洗澡舞的AnimateAnyone

就是下面这个:

AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap

如今推出EMO,不少网友在感叹,阿里是有些技术积累在身上的。

AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap

如果现在把所有这些技术结合起来,那效果……

不敢想,但好期待。

AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap

总之,我们离“发给AI一个剧本,输出整部电影”越来越近了。

AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap

One More Thing

Sora,代表文本驱动的视频合成的断崖式突破。

EMO,也代表音频驱动的视频合成一个新高度。

两者尽管任务不同、具体架构不同,但还有一个重要的共性:

中间都没有加入显式的物理模型,却都在一定程度上模拟了物理规律。

因此有人认为,这与Lecun坚持的“通过生成像素来为动作建模世界是浪费且注定要失败的”观点相悖,更支持了Jim Fan的“数据驱动的世界模型”思想。

AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap

过去种种方法失败了,而现在的成功,可能真就来自还是强化学习之父Sutton的《苦涩的教训》,大力出奇迹。

让AI能够像人们一样去发现,而不是包含人们发现的内容

突破性的进展最终通过扩大计算规模来实现

论文:
https://arxiv.org/pdf/2402.17485.pdf
GitHub:
https://github.com/HumanAIGC/EMO

参考链接:
[1]
https://x.com/swyx/status/1762957305401004061

报名中!

2024年值得关注的AIGC企业&产品

量子位正在评选2024年最值得关注的AIGC企业、 2024年最值得期待的AIGC产品两类奖项,欢迎报名评选

评选报名截至2024年3月31日 AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap

AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap

中国AIGC产业峰会同步火热筹备中,了解更多请戳:Sora时代,我们该如何关注新应用?一切尽在中国AIGC产业峰会

商务合作请联络微信:18600164356 徐峰

活动合作请联络微信:18801103170 王琳玉

点这里👇关注我,记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

AI视频又炸了!照片+声音变视频,阿里让Sora女主唱歌小李子说rap

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 3 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山 衡宇 2025-12-21 10:...
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026 Jay 2025...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

Failed to fetch content Read More 
LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了 一水 2025-12-21 19:13:08 来源:量子位 “LLM到不了AGI...
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026 一水 2025-12-21 19:11:12 ...