推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

1,266次阅读
没有评论

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

  新智元报道  

编辑:编辑部

【新智元导读】去年年底因颠覆Transformer一战成名的Mamba架构论文,竟然在ICLR 2024同行评审中被打出3分的低分,因而可能被拒收?这桩疑案今早一被曝出,立刻引发轩然大波,连LeCun都跳出来喊冤。


去年12月,CMU和普林斯顿的2位研究者发布了Mamba架构,瞬间引起AI社区震动!

结果,这篇被众人看好有望「颠覆Transformer霸权」的论文,今天竟曝出疑似被顶会拒收?!

今早,康奈尔大学副教授Sasha Rush最先发现,这篇有望成为奠基之作的论文似乎要被ICLR 2024拒之门外。

并表示,「说实话,我不理解。如果它被拒绝了,我们还有什么机会」。

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

在OpenReview上可以看到,四位审稿人给出的分数是3、6、8、8。

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

虽然这个分数未必会让论文被拒收,但是3分这样的低分,也是很离谱了。

牛文得3分,LeCun都出来喊冤


这篇由CMU、普林斯顿大学的2位研究人员发表的论文,提出了一种全新的架构Mamba。

这种SSM架构在语言建模上与Transformers不相上下,而且还能线性扩展,同时具有5倍的推理吞吐量!

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

论文地址:https://arxiv.org/pdf/2312.00752.pdf

当时论文一出,直接炸翻了AI社区,许多人纷纷表示推翻Transformer的架构终于诞生了。

而现在,Mamba论文有被拒可能性,让许多人无法理解。

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

就连图灵巨头LeCun也下场参与了这波讨论,表示遭遇过类似的「冤屈」。

「想当年,我被引数最多,仅在Arxiv提交的论文被引超过了1880次的论文,从未被接收」。

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

LeCun正是以使用卷积神经网络(CNN)在光学字符识别和计算机视觉方面的工作而闻名的,也因此在2019年获得了图灵奖。

不过他的这篇发表于2015年的《基于图结构数据的深度卷积网络》的论文,却从未被顶会接收。

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

论文地址:https://arxiv.org/pdf/1506.05163.pdf

深度学习AI研究员Sebastian Raschka称,尽管如此,Mamba在AI社区带来了深刻的影响。

近来一大波研究,都是基于Mamba架构衍生出来的,比如MoE-Mamba、Vision Mamba。

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

有趣的是,爆料Mamba被打低分的Sasha Rush,也在今天发表了一篇基于这样研究的新论文——MambaByte。

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

事实上,Mamba架构已经有了「星星之火可以燎原」的架势,在学术圈的影响力越来越广。

有网友表示,Mamba论文将开始占领arXiv。

「举个例子,我刚看到这篇论文提出了MambaByte,一种无token的选择性状态空间模型。基本上,它调整了Mamba SSM,直接从原始token中学习。」

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

Mamba论文的Tri Dao今天也转发了这篇研究。

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

如此大火的论文却被打出低分,有人表示,看来同行评审是真不关注营销的声音有多大啊。

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

Mamba论文被打3分的理由


给Mamba论文打低分的原因究竟是什么呢?

可以看到给打3分的审稿人,置信度还是5,说明自己对这个评分也是非常肯定。

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

在review中,他提出的问题分为两个部分:一是对模型设计的质疑,另一个是对实验提出疑问。

模型设计

– Mamba的设计动机是解决循环模型的缺点,同时提高基于Transformer模型的效率。有很多研究都是沿着这个方向进行的:S4-diagonal [1]、SGConv [2]、MEGA [3]、SPADE [4],以及许多高效的Transformer 模型(如[5])。这些模型都达到了接近线性的复杂度,作者需要在模型性能和效率方面将Mamba与这些作品进行比较。关于模型性能,一些简单的实验(如在Wikitext-103上进行语言建模)就足够了。

– 许多基于注意力的Transformer模型都展现出长度泛化的能力,即模型可以在较短的序列长度上进行训练,然后在较长的序列长度上进行测试。一些例子包括相对位置编码(T5)和 Alibi [6]。由于SSM一般都是连续的,那么Mamba是否具有这种长度泛化能力呢?

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

实验

– 作者需要与更强的基线进行比较。作者承认H3被用作模型架构的动机。然而,他们并没有在实验中与H3进行比较。从 [7] 的表4中可以看出,在Pile数据集上,H3的ppl分别为8.8(125M)、7.1(355M)和 6.0(1.3B),大大优于 Mamba。作者需要展示与H3的比较。

– 对于预训练模型,作者只展示了零样本推理的结果。这种设置相当有限,结果不能很好地证明Mamba的有效性。我建议作者进行更多的长序列实验,比如文档摘要,在这种情况下,输入序列自然会很长(例如,arXiv数据集的平均序列长度大于8k)。

– 作者声称其主要贡献之一是长序列建模。作者应该在LRA(Long Range Arena)上与更多基线进行比较,这基本上是长序列理解的标准基准。

– 缺少内存基准。尽管第4.5节的标题是「速度和内存基准」,但只介绍了速度比较。此外,作者应提供图8左侧更详细的设置,如模型层、模型大小、卷积细节等。作者能否提供一些直观的解释,说明为什么当序列长度非常大时FlashAttention的速度最慢(图8左)?

对于审稿人的质疑,作者也是回去做了功课,拿出了一些实验数据去rebuttal。

比如,针对模型设计第一点疑问,作者表示团队有意将重点放在大规模预训练的复杂性上,而不是小规模基准上。

尽管如此,Mamba在WikiText-103上的表现还是大大优于所有建议的模型和更多模型,这也是我们在语言方面的一般结果所能预料到的。


首先,我们在与Hyena论文 [Poli, 表 4.3] 完全相同的环境下对Mamba进行了比较。除了他们报告的数据外,我们还调整了自己的强Transformer基线。


然后,我们将模型换成Mamba,它比我们的Transformer提高了1.7 ppl,比原始基线Transformer提高了2.3 ppl。

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

针对「缺少内存基准」这一点,作者表示:

与大多数深度序列模型(包括FlashAttention)一样,内存使用量只是激活张量的大小。事实上,Mamba的内存效率非常高;我们还额外测量了125M模型在一张A100 80GB GPU上的训练内存需求。每个批由长度为2048的序列组成。我们将其与我们所知的内存效率最高的Transformer实现(使用torch.compile的内核融合和FlashAttention-2)进行了比较。

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

更多rebuttal细节,请查看https://openreview.net/forum?id=AL1fq05o7H

总的看下来,审稿人的意见,作者都已解决,然而这些rebuttal却被审稿人全部忽略了。

有人从这位审稿人的意见中找出了「华点」:或许他根本不懂什么是rnn?

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

全程围观网友表示,整个过程读起来太令人痛心了,论文作者给出了如此彻底的回应,但审稿人丝毫没有动摇,不再重新评估。

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

打出一个置信度为5的3分,还不理会作者有理有据的rebuttal,这种审稿人也太烦人了吧。

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

而其他三位审稿人,则给出了6、8、8这样的高分。

打6分的审稿人指出,weakness是「该模型在训练期间仍然像Transformer一样需要二次内存」。

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

打出8分的审稿人表示,文章的weakness只是「缺乏对一些相关著作的引用」。

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

另一位给8分的审稿人对论文大加赞赏,称「实证部分非常透彻,结果很强」。

甚至没发现任何Weakness。

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

分歧如此大的分型,应该有一个解释的。但目前还未有meta-reviewer评论。

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

网友大呼:学术界也衰落了!


在评论区,有人发出了灵魂拷问,究竟是谁打出了3这样的低分??

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

显然,这篇论文用很低的参数获得了更好的结果,并且GitHub代码也很清晰,每个人都可以测试,因此已经赢得了坊间公认的赞誉,所以大家才都觉得离谱。

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

有人干脆大呼WTF,即使Mamba架构不能改变LLM的格局,它也是一个在长序列上有多种用途的可靠模型。竟然得到这个分数,是不是意味着如今的学术界已经衰落了?

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

大家纷纷感慨道,好在这只是四条评论中的一个,其他审稿人给出的都是高分,目前最终决定尚未做出。

有人猜测,可能是审稿人太累了,失去了判断力。

另外还有一种原因,就是State Space模型这样的全新研究方向,或许会威胁到某些在Transformer领域很有建树的审稿人专家,情况很复杂。

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

有人说,Mamba论文获得3分,简直就是业界的笑话。

他们如此专注于疯狂比较细颗粒度基准,但其实论文真正有趣的部分,是工程和效率。研究正在消亡,因为我们只关心SOTA,尽管它是在该领域极其狭窄子集的过时基准上。

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

「理论不够,工程太多。」

推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

目前,这桩「谜案」还未水落石出,全体AI社区都在等一个结果。

参考资料:https://x.com/marktenenholtz/status/1750537561754247204?s=20 https://twitter.com/srush_nlp/status/1750526956452577486
推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历
推翻Transformer奠基之作疑被拒收,ICLR评审遭质疑!网友大呼黑幕,LeCun自曝类似经历

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 1 月
1234567
891011121314
15161718192021
22232425262728
293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手 十三 2025-12-09 18:18:41 来源:量子位...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东 Jay 2025-12-09 08:26:01 来源...
梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物! 一水 2025-12-09 09:46:23 来源:量子位 来自安...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布 思邈 2025-12-09 15:46:09 来源:量子位 国内首个聚焦...
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」 henry 2...