国产AI导演贼6，短视频镜头和物体各动各的｜港城大&快手&天大

‍西风发自凹非寺
量子位 | 公众号 QbitAI

快手发力AI视频，参与开发了一个智能“导演”。

Direct-a-Video，成功解耦AI生成视频中物体运动和摄像机运动，让灵活性和可控性大大增强！

不信，来欣赏一波作品。

短视频中的镜头移动方向全凭导演指令，水平（X轴）、垂直（Y轴）、变焦必须精准：

国产AI导演贼6，短视频镜头和物体各动各的｜港城大&快手&天大

AI导演还上演了一出炫技，镜头移动方向混合水平、垂直：

国产AI导演贼6，短视频镜头和物体各动各的｜港城大&快手&天大

混合水平、变焦运动效果也可以

国产AI导演贼6，短视频镜头和物体各动各的｜港城大&快手&天大

此外，导演还要求视频中的每个“演员”都能按照绘制的框框运动：

国产AI导演贼6，短视频镜头和物体各动各的｜港城大&快手&天大

达到镜头移动和演员运动合一的效果。

比如，大熊原地太空漫步，镜头水平和垂直移动实现整体视频运动效果：

国产AI导演贼6，短视频镜头和物体各动各的｜港城大&快手&天大

当然大熊的位置也可以通过绘制带箭头的框框，从一个地方移动到另一个地方：

国产AI导演贼6，短视频镜头和物体各动各的｜港城大&快手&天大

甚至还能同时分别控制多个“演员”的移动路径：

国产AI导演贼6，短视频镜头和物体各动各的｜港城大&快手&天大

这就是香港城市大学、快手科技、天津大学研究团队共同提出的Direct-a-Video文本-视频生成框架的效果展示。

国产AI导演贼6，短视频镜头和物体各动各的｜港城大&快手&天大

怎么做到的？

具体来说，Direct-a-Video分为两个板块——

在训练阶段，学习相机移动控制；在推理阶段，实现物体运动控制。

国产AI导演贼6，短视频镜头和物体各动各的｜港城大&快手&天大

在实现相机移动控制时，研究人员采用了预训练的ZeroScope文本到视频模型作为基础模型，并引入新的可训练时间自注意力层（相机模块），将由Fourier编码和MLP映射的平移和变焦参数嵌入注入其中。

训练策略是在有限数据上，使用数据增广的自监督训练方式学习相机模块，无需人工运动标注。

其中数据增广通俗来讲，就是添加已有数据的略微修改版，或从现有数据中创建新的合成数据来增加数据量：

国产AI导演贼6，短视频镜头和物体各动各的｜港城大&快手&天大

经过自监督训练后，该模块可以解析相机运动参数实现定量控制。

国产AI导演贼6，短视频镜头和物体各动各的｜港城大&快手&天大

实现物体运动控制时，不需要额外的数据集和训练，只需用户简单绘制首末帧框和中间轨迹即可定义物体运动。

简单来说，直接在推理时采用基于像素的自注意力增强和抑制，分时阶段调控每帧内各对象的自注意力分布，从而使对象生成到用户通过一系列框指定的位置，实现物体运动轨迹控制。

国产AI导演贼6，短视频镜头和物体各动各的｜港城大&快手&天大

值得一提的是，相机移动控制和物体运动控制互相独立，允许单独或联合控制。

Direct-a-Video效果如何？

研究人员将Direct-a-Video与多基准对比验证了该方法的有效性。

相机移动控制评估

Direct-a-Video与AnimateDiff和VideoComposer对比结果如下：

国产AI导演贼6，短视频镜头和物体各动各的｜港城大&快手&天大

Direct-a-Video在生成质量、相机移动控制精度上均优于基线：

国产AI导演贼6，短视频镜头和物体各动各的｜港城大&快手&天大

物体运动控制评估

Direct-a-Video与VideoComposer和Peekaboo对比，验证了本方法在多物体及运动场景下的控制能力。

国产AI导演贼6，短视频镜头和物体各动各的｜港城大&快手&天大

在生成质量和物体运动控制精度上优于VideoComposer：

国产AI导演贼6，短视频镜头和物体各动各的｜港城大&快手&天大

网友看到效果直呼因锤斯汀：

除Runway外，又多了一种新选择。

国产AI导演贼6，短视频镜头和物体各动各的｜港城大&快手&天大

PS：

Runway Gen-2“运动笔刷”（Motion Brush），涂哪儿动哪儿，同样可调整参数控制运动方向：

国产AI导演贼6，短视频镜头和物体各动各的｜港城大&快手&天大

参考链接：
[1]https://x.com/dreamingtulpa/status/1756246867711561897?s=20
[2]https://arxiv.org/abs/2402.03162

— 完 —

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

国产AI导演贼6，短视频镜头和物体各动各的｜港城大&快手&天大

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

国产AI导演贼6，短视频镜头和物体各动各的｜港城大&快手&天大

‍西风发自凹非寺
量子位 | 公众号 QbitAI

怎么做到的？

Direct-a-Video效果如何？

n8n实战：Webhook、条件判断与API集成详解

谷歌太壕了！编程Agent大招至简：开源且免费，百万上下文、多模态、MCP全支持

百度文心快码AI IDE上线，首创设计稿一键转代码、支持MCP

老黄新鲜一刀，RTX 5050正式官宣

国产GPU历史性时刻！摩尔线程、沐曦同日获IPO受理

00后投身具身智能创业，剑指机器人界「Model 3」！已推出21个自由度灵巧手

监督学习也能从错误中学习反思？！清华英伟达联合提出隐式负向策略爆炸提升数学能力

AI也会闹情绪了！Gemini代码调试不成功直接摆烂，马斯克都来围观

百度文心快码AI IDE上线，首创设计稿一键转代码、支持MCP

曝苹果拟收购Perplexity AI，人才一并拿走

国产AI导演贼6，短视频镜头和物体各动各的｜港城大&快手&天大

‍西风 发自 凹非寺量子位 | 公众号 QbitAI

怎么做到的？

Direct-a-Video效果如何？

‍西风发自凹非寺
量子位 | 公众号 QbitAI