腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

奇月
2024-12-19
21:52:24

来源：量子位

网友：最好的开源视频模型

奇月发自凹非寺
量子位 | 公众号 QbitAI

提速8倍！

速度更快、效果更好的混元视频模型——FastHunyuan来了！

新模型仅用1分钟就能生成5秒长的视频，比之前提速8倍，步骤也从50步减少到了6步，甚至画面细节也更逼真了。

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

和普通速度的混元对比一下，原来50步才能生成1条视频，而现在新模型在相同的时间里可以生成8条：

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

再来看看和Sora的画面对比，可以看到Fast-Hunyuan和Sora两者的效果都更逼真一些，衣服、水果和山峰的细节也非常清晰。

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

甚至在一些物理细节的理解上，Fast-Hunyuan比Sora还强，比如下面拿取柠檬的视频：

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

更重要的是，Fast-Hunyuan的代码也开源了，这下不用为Sora的订阅费和限额发愁了。

研究团队来自加州大学圣地亚哥分校（UCSD）的Hao AI实验室，他们主要专注机器学习算法和分布式系统的研究。

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

混元官方账号还特意发博感谢了他们：

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

有网友看完后直呼，混元才是最好的开源视频模型。

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

开创性的视频DiT蒸馏配方

团队是如何做到8倍提速的情况下还能提升视频清晰度呢？

下面就一起来看一下Fast-Hunyuan的技术原理——

首先，他们开发了全新的视频DiT蒸馏配方。

具体来说，他们的蒸馏配方基于阶段一致性（Phased Consistency Model, PCM）模型。

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

在尝试使用多阶段蒸馏后发现效果没有显著改进，最终他们选择保持单阶段设置，与原始PCM模型的配置相似。

其次，团队使用了OpenSoraPlan中的MixKit数据集进行了蒸馏。

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

为了避免在训练过程中运行文本编码器和VAE，团队还预处理了所有数据，用来生成文本嵌入和VAE潜在变量。

在推理阶段，用户可以通过FSDP、序列并行和选择性激活检查点进行可扩展训练，模型可以近乎线性扩展到64个GPU。测试代码在Python 3.10.0、CUDA 12.1和H100上运行。

官方推荐使用80GB内存的GPU，不同模型有相应的下载权重和推理命令。

最低硬件要求如下：

40 GB GPU 内存，每个 GPU 配备 lora
30 GB GPU 内存，每 2 个 GPU 配备 CPU 卸载和 LoRa。

在模型微调方面，Fast-Hunyuan提供了全微调（需准备符合格式的数据，提供了一些可下载的预处理数据及对应命令）和LoRA 微调（即将上线）两种方式。

此外，他们还结合了预计算潜变量和预计算文本嵌入，用户可以根据自己的硬件条件选择不同的微调方式来执行命令，也支持图像和视频的混合微调。

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

模型已于2024年12月17日发布了v0.1版本。

未来的开发计划还包括添加更多蒸馏方法（如分布匹配蒸馏）、支持更多模型（如CogvideoX模型）以及代码更新（如fp8支持、更快的加载和保存模型支持）等等。

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

One More Thing

除了加速模型，混元还预告了大家都非常期待的图像到视频生成功能。

最快1月份，也就是下个月就可以看到！期待住了。

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

GitHub：https://github.com/hao-ai-lab/FastVideo
HuggingFace：https://huggingface.co/FastVideo/FastHunyuan

参考链接：
[1]https://x.com/TXhunyuan/status/1869282002786292097

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

奇月发自凹非寺
量子位 | 公众号 QbitAI

开创性的视频DiT蒸馏配方

One More Thing

n8n实战：Webhook、条件判断与API集成详解

谷歌太壕了！编程Agent大招至简：开源且免费，百万上下文、多模态、MCP全支持

百度文心快码AI IDE上线，首创设计稿一键转代码、支持MCP

老黄新鲜一刀，RTX 5050正式官宣

国产GPU历史性时刻！摩尔线程、沐曦同日获IPO受理

百度文心快码AI IDE上线，首创设计稿一键转代码、支持MCP

曝苹果拟收购Perplexity AI，人才一并拿走

有道14B低成本轻量模型“子曰3”开源，数学推理性能超越大模型

马斯克Robotaxi今日上路：画饼十年终兑现！团队合影C位武汉理工校友引关注

蚂蚁开源轻量级推理模型Ring-lite，多项Benchmark达到SOTA

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

腾讯版Sora开源后，被提速8倍！官方点赞并预告：下月上新图生视频

奇月 发自 凹非寺 量子位 | 公众号 QbitAI

开创性的视频DiT蒸馏配方

One More Thing

奇月发自凹非寺
量子位 | 公众号 QbitAI