小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

187次阅读
没有评论

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

Transformer竞争像抢板凳游戏

编辑部 整理自 MEET2026
量子位 | 公众号 QbitAI

从生物进化的漫长历程到AI技术的疯狂迭代,两者遵循着惊人相似的底层逻辑。

在探寻下一代AI架构的关键时刻,著名的“Kaldi之父”、小米集团首席语音科学家、IEEE Fellow Daniel Povey提出:

就像生物进化一样, AI“配方”的设计本质上就是一个不断试错的过程,而进化的速度,取决于“复制”一个新想法所需的时间。

在本次量子位MEET2026智能未来大会上,他也将开源视为AI进化的核心加速器——

若没有开源,行业的进化速度恐怕要慢上一千倍;正是因为有了开源,技术才能像生物适应新环境一样,经历“长期停滞+瞬间爆发”的非线性跃迁。

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

至于如何在未来的竞争中生存,在他看来,大公司最明智的策略是“两条腿走路”——

一边利用Transformer赋能当下的产品,一边保留资源探索未知,赌中下一个颠覆世界的机会。

为了完整体现Daniel Povey的思考,在不改变原意的基础上,量子位对演讲内容进行了翻译和编辑整理,希望能给你带来更多启发。

MEET2026智能未来大会是由量子位主办的行业峰会,近30位产业代表与会讨论。线下参会观众近1500人,线上直播观众350万+,获得了主流媒体的广泛关注与报道。

核心观点梳理

  • AI的演进和自然界生物的进化过程非常相似,通过尝试不同的技术变体,然后筛选出在目标任务上表现更优的方案;
  • 类比生物进化中的“间断平衡”,AI的发展并非连续,而是“长期停滞+突然跃迁”,停滞期也不会永远持续;
  • 开源对进化速度至关重要,如果每家公司都闭源,那么研究速度可能会降低为原来的千分之一;
  • 不要押注单一任务或单一路线,在进化过程中找到AI“通才”与“专才”的平衡,保留多种不同模型架构的存续,从而增加发掘实用新技术的机会;
  • 大公司双管齐下是有意义的,一方面使用当前业界领先的技术方案,另一方面进行探索性研究,以寻找下一个重大突破。

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

以下为Daniel Povey演讲原文中译本

像生物进化一样快速试错

大家好,今天我想和大家分享一些关于“进化”和“AI”的思考,以及我们如何从生物演化中汲取关于AI未来的启示。我将主要从科研和模型本身的角度解读这个问题。

人们设计AI“配方”的过程,本质上主要还是一个不断试错的过程。

当人们有了新的理解,就会发表许多富含公式的论文,但其中99%的内容都没什么真正可操作的价值,最后能落地的通常只是“配方”本身。

所以设计AI“配方”的基本流程就是尝试不同变体,然后筛选出有效的进行发布,别人再照着做。

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

这其实和生物进化非常相似。

在生物进化中,进化过程也会和外部环境相互影响,例如地球上的进化会受到太阳辐射变化、大气成分变化的影响,而生命本身也会反过来影响这些环境因素,比如改变大气成分。

AI的进化也是如此,可能会受到硬件、数据等资源的限制;同时,AI也会通过商业效应、群体行为效应反作用于这些外部条件。

在历史上,生物进化甚至曾经多次“破坏”自身的生存环境,例如“大氧化事件”(Great Oxygenation Event),不过最终生命又从中恢复了过来。

(注:大氧化事件是指约26亿年前,大气中的游离氧含量突然增加的事件,其具体原因不明。该事件使地球上矿物的成分发生了变化,也使得日后动物的出现成为了可能。)

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

生物学中“世代间隔”(Generation time)类比到AI,就是复制一个新想法所需的时间,通常这个时间会持续数个月。

因为当你有了新的发现,往往要先写论文,而且一般是写完才对外公开,有些期刊甚至规定发表前不能先上传arXiv之类的预印本。

过去这样的周期可能需要大概两年,但现在可能缩短到了六个月

现在,有了PyTorch这样的工具,人们可以近乎完美地复现他人发布的“配方”。

当然,有时人们可能只给出了描述(而没有代码),这会使得复现过程稍慢一些,但整体上,代际周期的长短决定了进化的快慢。

就像世代间隔漫长的大型生物,往往进化缓慢;而那些能够快速繁衍的小型生物,进化速度则要快得多。

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

去不同领域寻找AI突破口

在自然界的进化中,往往存在一种“停停走走”的节奏,很长一段时间里几乎没有什么动静,随后突然发生剧变。

对于自然界的物种来说,这种变化通常是由迁移到新环境所导致的;但偶尔,它也源于生命“解锁”了某种新事物,比如光合作用演化出来时,整个进化的节奏便迅速发生了改变。

我从事AI领域大概有30年了,特别是在语音领域,也经历过长时间没有太大进展的阶段,当时我们甚至以为“这就是终点”。

当年我们做高斯混合模型、判别式训练时,以为语音识别的最终形态就是那样了,没人能想象未来的改变。所以也许十年后,也会出现今天谁都无法想象的全新模型。

AI的发展中,不同任务之间的相互作用非常重要,比如视觉领域的新方法,后来可能会用于语音、语言等任务。

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

最近一个典型例子就是Transformers,它最初是专门为语言模型设计的,后来却在各种任务中大放异彩。

在进化中也是如此,海豚绝无可能仅在海洋里就进化成型,因为它那些呼吸空气的机能,原本是为了适应陆地生活才演化出来的。但当它重返海洋后,却成了最成功的顶级捕食者。

这说明,有时候你确实需要暂时去做一些截然不同的事情,最终才能在原本的目标上取得成功

如果不开源,AI得慢上一千倍

当然,拿生物进化做类比也有局限性。毕竟我们可以主动去理解事物,可以利用数学推导,或者改进可视化和调试工具,从而加速技术的发展。

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

此外,提速也非常关键。实验跑得越快,进化的迭代就越快,这对研究价值巨大。

而在这一点上,开源起到了至关重要的作用。

如果每家公司都得自己从头重复造轮子,研究速度恐怕要慢上一千倍。

我们可以设想一个平行世界,如果大公司决定不开源PyTorch,我也没有开源Kaldi项目,那AI研发的局面会很不相同。

不过,不开源在某些行业确实是常态,尤其是涉及实体工程的领域,因为开发一款工具往往极其昂贵,可能要砸出数百万美元,所以没人会把他们的模型开源出来。

其实,2012年我之所以离开工业界,就是因为这个问题。当时的大公司普遍对开源都不怎么感冒,所以我转去学术界待了一段时间。

但如今很多公司都开始拥抱开源了,像小米就非常支持我的工作,也支持开源,所以我又回到了工业界。

寻找Transformer之后的下一个颠覆者

回到关于进化的比喻,我刚才吐槽过论文中的那些数学理论往往不够具体,没法落地。那么,我们到底能从中能学到什么实实在在的东西呢?

有一点很关键,那就是我们需要在各种不同的任务上不断探索新思路。

因为在进化这件事上,很难预判哪种生物最终会胜出。就像啮齿类动物,起初可能只是为了吃竹子种子这种极具体的目的而进化的。

但结果谁曾想,这反而让它们演化出了一种极强的“通才”式生存能力,最终遍布全球、无所不能。

可在当时,谁能想到吃竹子种子这事儿能带来这么大的突破呢?这种事真的太难预测了。

所以说,关键就在于要多尝试不同的任务,因为我们为了突破某个任务特有限制研发出的解决方案,可能最后会被证明具有极高的通用价值。

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

我们需要关注进化过程中“通才”与“专才”之间的权衡,我并非要分出孰优孰劣,但是从长远来看,不同的进化策略能够适应不同的环境——

如果环境长期稳定,自然界往往会涌现出大量像熊猫这样的“专才”,它们虽然只吃一种食物,却能做到极致适应;

可一旦环境变得动荡多变,像老鼠这种适应力极强的“通才”往往更具生存优势。

所以,这两种生存策略很可能是缺一不可的。

对于AI而言,我们应该让模型在多个不同的生态位里同时演进,这就像自然界在不同环境中进行的进化一样。毕竟,每个物种通常都有其最适应的特定生存空间。

如果我们能同时保留多种不同的技术路线,说不定其中某一条在经过进一步打磨后,就能带来巨大的回报。但这事儿很难提前预判,没人知道眼下哪个模型会在未来称王。

出于同样的理由,我们也应该维持模型架构的多样性。这就像大自然保留了丰富多样的物种一样,因为我们根本无法确定,到底哪一种架构会孕育出下一轮的重大突破。

在我看来,大多数大型机构采取两头并重的策略是比较明智的——既要沿用像Transformer等当前最顶尖的成熟模型,同时也得投入一些资源去做探索性研究,去寻找下一个技术突破口。

在我看来,Transformer这种技术领域的竞争现状,就像是“抢椅子”——只要音乐还在响,你就得跟着一直跳。

毕竟在Transformer和LLM依然称霸的当下,任何一家公司都绝无可能把身家性命都押在别的路线上。

但大家心里也都清楚,音乐迟早有停下来的那一天。

所以,小米在LLM上的研究主线很明确,那就是利用SOTA级别的AI和大模型技术,去全方位赋能我们的“人车家全生态”。

我个人其实并没有深度参与这些工作,因为我和团队主要负责的是探索性研究。我们尝试了大量不同的方向,就是希望能找到能产生巨大影响的成果,但这事的成功率向来极低。

回首我的整个研究生涯,尝试过的点子恐怕得有上万个。现在回头看,其中有一两个如果当时我能推广得再好一点,说不定真能成为颠覆性的技术。

比如,早在大家连BatchNorm都还没开始用的时候,我们组其实就已经设计出了一种类似于LayerNorm的归一化模块。

但我也不想像Jürgen Schmidhuber那样说“我在所有人之前发明了一切”。

(注:Jurgen Schmidhuber是著名计算机科学家、LSTM之父,喜欢在AI领域出现新成果时发表文章或评论,列举自己上世纪的论文,表示“这个东西我几十年前就发明过了”。)

因为作为一名研究人员,有责任去判断哪些是有价值的想法,并对其进行妥善推广。如果你没做到,那就得承认是自己的失误。

言归正传,我的团队目前正在研发一种针对语音的新模型架构,叫Zapformer,是一个通用声音基座。

相较于我们去年推出的Zipformer而言,Zapformer实现了三大跨越:

  • 从“人声”到“万声”的跨越:从专注于人声建模,到成为能同时理解人声、环境音等多元信息的通用声音基座;
  • 从优化结构到创新理论的跨越:通过引入梯度流(Gradient Flow)理论指导模型设计,在已属业界标杆的Zipformer基础上,将语音识别精度再次显著提升10%-15%;
  • 从专用优化到通用健壮的跨越:为适应海量数据训练移除了Dropout层,增强了大数据拟合能力,同时将优化器升级为TransformAdam,在保持极速收敛的同时,大幅提升了训练的通用性与稳定性。

我不想把话说太满,说它就是“下一个大热门”,但它确实包含了不少有意思的想法。

当然,我们希望能押中下一个“大杀器”,但这事儿谁也没法打包票。

所有这些成果全都是开源的,因为我是开源的坚定信徒。除了我的项目,小米还有很多其他的开源项目。

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 12 月
1234567
891011121314
15161718192021
22232425262728
293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享

训具身模型遇到的很多问题,在数据采集时就已经注定了丨鹿明联席CTO丁琰分享 衡宇 2026-01-08 20:...
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2

「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2...
开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二!

开源“裸考”真实世界,国产具身智能基座模型拿下全球第二! 西风 2026-01-08 19:02:20 来源:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
刚开年,马斯克就到账了200亿美金!

刚开年,马斯克就到账了200亿美金!

Failed to fetch content Read More 
B站开启AI创作大赛,首次开放《三体》改编权,奖金总计超300万

B站开启AI创作大赛,首次开放《三体》改编权,奖金总计超300万

B站开启AI创作大赛,首次开放《三体》改编权,奖金总计超300万 量子位的朋友们 2026-01-05 15:...
悲报!Stack Overflow彻底凉了,比18年前上线首月问题数量还少

悲报!Stack Overflow彻底凉了,比18年前上线首月问题数量还少

悲报!Stack Overflow彻底凉了,比18年前上线首月问题数量还少 闻乐 2026-01-05 19:...
老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛

老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛

老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛 闻乐 2026-01-06 09:09:0...