今天起,汉字也能AI视频生成了!《滕王阁序》直接拿捏到位了

744次阅读
没有评论

今天起,汉字也能AI视频生成了!《滕王阁序》直接拿捏到位了

新版通义万相来了

金磊 发自 凹非寺

量子位 | 公众号 QbitAI

“汉字”这个难关,今天终于被AI视频生成给拿下了!

话不多说,我们直接先来看效果:

今天起,汉字也能AI视频生成了!《滕王阁序》直接拿捏到位了

视频地址:https://mp.weixin.qq.com/s/fIV5xYvwq_OjtLzGj6ql-g?token=1827059726&lang=zh_CN

这个“福”字,就这样被AI水灵灵地一笔一划滴了出来。

再如下面这个例子,我们的Prompt是:

有汉字“量子位”,古风。

今天起,汉字也能AI视频生成了!《滕王阁序》直接拿捏到位了
视频地址:https://mp.weixin.qq.com/s/fIV5xYvwq_OjtLzGj6ql-g?token=1827059726&lang=zh_CN

但这样还是略显单调,我们上一下难度:

赛博朋克风格城市夜景,镜头视角是车辆在马路上行驶,对面大楼楼体有巨大的LED广告牌,上面写着“量子位”三个字。

今天起,汉字也能AI视频生成了!《滕王阁序》直接拿捏到位了
视频地址:https://mp.weixin.qq.com/s/fIV5xYvwq_OjtLzGj6ql-g?token=1827059726&lang=zh_CN

好的,我们也算是打了一波赛博广告了。

那么让字数再多一点,AI是否能hold住呢?

我们直接来挑战一下:

水彩透叠插画风格,三只不同颜色的可爱小猫咪手举着一条超大的鱼,从右边走到左边。它们分别穿着粉色、蓝色和黄色的小背心,眼睛圆圆的,表情呆萌。充满童趣,笔触淡雅温馨,简笔画风格。纯白背景上逐渐显示出来几个字体,写着:“摸鱼一天 快乐无边”。

今天起,汉字也能AI视频生成了!《滕王阁序》直接拿捏到位了
视频地址:https://mp.weixin.qq.com/s/fIV5xYvwq_OjtLzGj6ql-g?token=1827059726&lang=zh_CN

可以看到,这段视频中虽然有一个小瑕疵(“摸”字多了一笔),但整体是把Prompt中的内容给还原了出来。

当然,复杂的汉字都能搞定,这个AI自然也可以生成英文单词,并且还是带“花活儿”的那种(下面还有中文版):

今天起,汉字也能AI视频生成了!《滕王阁序》直接拿捏到位了
今天起,汉字也能AI视频生成了!《滕王阁序》直接拿捏到位了
视频地址:https://mp.weixin.qq.com/s/fIV5xYvwq_OjtLzGj6ql-g?token=1827059726&lang=zh_CN

那么,这到底是何许AI是也?

不卖关子,它就是阿里通义万相刚刚升级的2个新版本视频生成模型:

  • 通义万相2.1极速版:能够让AI高效、快速地生成视频;
  • 通义万相2.1专业版:更注重AI视频生成的质量。

在整体体验过后,我们能够明显感受到模型整体性能有了大幅的提升。

尤其是在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面。

据了解,新版通义万相已经以84.70%的成绩登上权威评测集VBench榜首的位置,一路超越Gen3、Pika、CausVid等国内外视频生成模型。

今天起,汉字也能AI视频生成了!《滕王阁序》直接拿捏到位了

不过有一说一,能生成汉字,也还只是通义万相能力升级的一隅。

接下来,我们就继续来看下它在视频生成中的更多能力。

《滕王阁序》都能理解

值得一提的是,这个新升级的模型并不是PPT哦,是已经上线了的那种~

现在人人都可以在线免费体验了,入口和模型选择如下图所示:

今天起,汉字也能AI视频生成了!《滕王阁序》直接拿捏到位了

如果你是开发者或者企业,还可以在阿里云百炼上调用API,打造自己的专属应用。

鉴于此前大部分AI视频生成,在处理复杂人物动作时,往往会出现转个身就鬼畜的现象。

我们就直接来上个难度,超复杂动作——Breaking

请听Prompt:

在室内,镜头平拍一个外国男子跳霹雳舞的全景,男子身穿灰色的上衣和绿色的裤子,镜头随着男子的动作而移动,男子在舞台上进行一系列的翻滚和旋转动作,背景中可以看到观众席上的观众和一些模糊的舞台灯光,但焦点始终保持在舞者的动作上。

今天起,汉字也能AI视频生成了!《滕王阁序》直接拿捏到位了

可以看到,这段AI视频生成一改以往的鬼畜,在如此多且复杂的动作情况下,人物效果依旧是稳稳的。

再来看下跳水运动:

今天起,汉字也能AI视频生成了!《滕王阁序》直接拿捏到位了

细节如脚背,也是拿捏的很到位了。

除了在连续复杂动作发挥稳定效果之外,还原真实物理规律,也是评判AI视频生成效果的关键指标之一。

我们不妨让《滕王阁序》来考验一番:

落霞与孤鹜齐飞,秋水共长天一色。

今天起,汉字也能AI视频生成了!《滕王阁序》直接拿捏到位了

不难看出,通义万相新版本是非常好地理解了这句诗的意境。

而在面对像切肉这样的动作时,还原物理规律的体现会更加明显:

今天起,汉字也能AI视频生成了!《滕王阁序》直接拿捏到位了

切肉时肉块的自然分离、刀面上的镜像、肉底部的油……细节如斯,细节如斯。

在真实性的基础之上,若想用AI来打造质量更高的视频效果,那么运镜就是不可或缺的技巧之一。

这一点,通义万相也是可以完全hold住。

例如狐大仙蹦迪,我们可以来个给氛围狠狠加分的运镜:

今天起,汉字也能AI视频生成了!《滕王阁序》直接拿捏到位了

电影场景里跑车在山谷里疾驰的画面,跟着汽车的轨迹加复杂运镜也是可以有的:

今天起,汉字也能AI视频生成了!《滕王阁序》直接拿捏到位了

除此之外,通义万相还有个特点就是可以拿捏各种风格的类型,颇有种影视级的感觉。

例如中世纪真人写实风

今天起,汉字也能AI视频生成了!《滕王阁序》直接拿捏到位了

再如卡通动画

今天起,汉字也能AI视频生成了!《滕王阁序》直接拿捏到位了

而且生成的视频尺寸也是选择的哦:

今天起,汉字也能AI视频生成了!《滕王阁序》直接拿捏到位了

那么接下来的一个问题就是:

怎么做到的?

整体来看,这次通义万相在技术方面采取了三步走的创新路线。

首先,是VAE与DiT架构协同发力

视频VAE可以看做一位“压缩大师”,擅长将视频中的海量信息进行高效压缩,提取出最为关键的特征。

它通过将视频拆分为若干块(Chunk),并缓存中间特征,取代了传统长视频的端到端编解码方式。

这一设计的关键在于,使显存的使用仅与Chunk大小相关,而与原始视频长度无关,从而实现了对无限长1080P视频的高效编解码。

这种机制为任意时长视频的训练提供了可行性。实验表明,在较小模型参数下,通义万相VAE实现了业内领先的视频压缩与重构质量。

而DiT则像是一位“时空捕手”,能够敏锐地捕捉视频中的时空动态,精准地建模视频中不同元素在时间和空间上的变化关系。

通义万相团队采取了以下优化措施:

  • 时空全注意力机制:增强模型对复杂动态场景的建模能力。
  • 参数共享机制:提升模型性能的同时,降低训练成本。
  • 文本嵌入优化:提升文本控制能力,并显著降低计算需求。
今天起,汉字也能AI视频生成了!《滕王阁序》直接拿捏到位了△通义万相2.1视频生成架构图

其次,是超长序列训练上的突破

在面对超长序列训练这一极具挑战性的任务时,通义万相团队巧妙地运用了4D并行策略,犹如为模型训练打造了一台超强动力的“引擎”。

这一策略将DP(数据并行)、FSDP( Fully Sharded Data Parallel,全量分片数据并行)、RingAttention(环形注意力机制)、Ulysses(一种优化技术)等多种先进技术有机融合。

例如在显存优化方面,团队根据序列长度带来的计算和通信需求,采用分层显存优化策略,解决显存碎片问题,同时使用FlashAttention3提升时空注意力的计算效率。

此外,通过去冗余计算和高效Kernel实现,进一步降低访存开销。

文件系统优化方面,针对阿里云高性能文件系统的特性,团队采用分片Save/Load方式优化数据读写性能,并通过错峰内存使用方案,解决Dataloader Prefetch、CPU Offloading与Checkpoint存储引起的内存OOM问题。

稳定性提升方面,依托阿里云的智能调度、慢机检测与自愈能力,模型训练能够实现自动故障检测与任务重启,大幅提升训练过程的稳定性。

今天起,汉字也能AI视频生成了!《滕王阁序》直接拿捏到位了△通义万相4D并行分布式训练策略

最后,是数据与评估双轮驱动

通义万相团队打造了一套自动化数据构建管线,通过优化视觉质量和运动质量,筛选整合与人类偏好分布高度一致的数据集。这些数据具有多样性高、分布均衡等特点,极大提升了训练效率。

团队还为此设计了一套覆盖美学评分、运动分析、指令遵循等多个维度的评估体系,并训练了专业的打分器。通过这些自动化指标的反馈,显著加速了模型的迭代与优化。

以上便是炼成新版通义万相的核心技术要义了。

至此,不仅是从技术创新方面,更是从真真切切的体验角度来看,国产Sora再次走到了AI视频领域的前沿。

单就能够生成汉字这一点,便是全球独一份的那种。

而从视频生成范围之广,也是应了“通义万相”的名字——AI已经到了可以生成“万相”的时刻。

那么你是否也有脑洞大开的想法,并想让它们以视频的形式呈现出来呢?

快来体验一下最新、最Fashion的模型吧~

直接体验入口:
https://tongyi.aliyun.com/wanxiang/videoCreation

API调用:
https://bailian.console.aliyun.com/?spm=5176.29619931.J__Z58Z6CX7MY__Ll8p1ZOR.1.74cd59fckLhf3c#/model-market

参考链接:
https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 1 月
 12345
6789101112
13141516171819
20212223242526
2728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2...
开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二! 西风 2026-01-08 19:02:20 来源:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex 衡宇 2026-01-06 13:0...
杜比在CES 2026重塑了观影、娱乐的方式

杜比在CES 2026重塑了观影、娱乐的方式

杜比在CES 2026重塑了观影、娱乐的方式 十三 2026-01-07 12:47:06 来源:量子位 树立...
全自主、更好用!北京人形 “干活机器人” 惊艳亮相 CES2026

全自主、更好用!北京人形 “干活机器人” 惊艳亮相 CES2026

全自主、更好用!北京人形 “干活机器人” 惊艳亮相 CES2026 量子位的朋友们 2026-01-06 16...
港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了

港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了

港科大教授实测AI眼镜“作弊”:30分钟碾压95%的学生,把传统教学评估体系整破防了 梦瑶 2026-01-0...