表格处理神器登上Nature!开箱即用,平均2.8s解读任意表格

837次阅读
没有评论

表格处理神器登上Nature!开箱即用,平均2.8s解读任意表格

代码已开源,还支持微调

电子表格也迎来了自己的ChatGPT时刻。

就在这两天,一个名为TabPFN的表格处理模型登上Nature,随后在数据科学领域引发热烈讨论。

表格处理神器登上Nature!开箱即用,平均2.8s解读任意表格

据论文介绍,TabPFN专为小型表格而生,在数据集样本量不超过10,000时性能达到新SOTA。

具体而言,它在平均2.8秒内就能取得比之前所有方法更好的结果。

甚至即便其他方法拥有长达4小时的“整顿”时间,也还是比不过。

表格处理神器登上Nature!开箱即用,平均2.8s解读任意表格

更主要的是,它所采用的预训练神经网络方法彻底终结了传统ML(如梯度提升树)在表格领域的统治地位。

表格处理神器登上Nature!开箱即用,平均2.8s解读任意表格
表格处理神器登上Nature!开箱即用,平均2.8s解读任意表格

目前TabPFN开箱即用,无需专门训练即可快速解读任何表格。

表格处理神器登上Nature!开箱即用,平均2.8s解读任意表格

开箱即用的表格处理模型

在Nature的另一篇文章中,传统表格机器学习局限性被提及。

比如针对以下常见应用场景:

假如你经营着一家医院,想要判断哪些患者病情恶化风险最高,以便医护人员能优先照料,你可以创建一个电子表格,每行对应一位患者,列则记录年龄、血氧水平等相关属性,最后一列标注患者住院期间是否病情恶化。接着,用这些数据拟合数学模型,就能预估新入院患者的病情恶化风险。

在这个例子里,传统表格机器学习利用数据表进行推断,这通常需要针对每个任务开发和训练定制模型

而来自德国弗莱堡大学ML实验室等机构的研究人员,所推出的TabPFN做到了无需专门训练即可处理任意表格。

表格处理神器登上Nature!开箱即用,平均2.8s解读任意表格

而且据作者们声称,本次发布的TabPFN v2相比两年前的初代版本有了很大升级。

当时的TabPFN v1被认为“可能会彻底改变数据科学”,而现在:

我们离这一目标又更进了一步。

表格处理神器登上Nature!开箱即用,平均2.8s解读任意表格

概括而言,v2版本改进了分类能力,并扩展了功能以支持回归任务,其在回归任务上的性能也优于经过长时间调优的基线模型。

表格处理神器登上Nature!开箱即用,平均2.8s解读任意表格

此外,它还原生支持缺失值和异常值等,使其在处理各种数据集时都能保持高效和准确。

表格处理神器登上Nature!开箱即用,平均2.8s解读任意表格
表格处理神器登上Nature!开箱即用,平均2.8s解读任意表格

整体而言,TabPFN v2适用于处理不超过10,000样本和500特征的中小规模数据集。

下面我们来看TabPFN模型完整的训练和应用过程

先说数据集采样。为了让模型能够应对各种实际情况,研究人员生成了大量合成数据。

第一步,他们对一些关键参数(如数据点、特征、节点等数量)进行采样,然后在中间部分构建计算图和图结构以处理数据,最终生成具有不同分布和特征的数据集。

需要强调的是,为避免基础模型常见问题,中间部分是基于结构因果模型(SCMs)来生成合成训练数据集。

简单说,通过采样超参数构建因果图,传播初始化数据并应用多种计算映射和后处理技术,可以创建大量具有不同结构和特征的合成数据集,从而使模型能学习处理实际数据问题的策略。

表格处理神器登上Nature!开箱即用,平均2.8s解读任意表格

接下来进行模型预训练,他们为表格结构适配了新的架构

比如TabPFN模型为每个单元格分配独立的表示,这意味着每个单元格的信息都能被单独处理和关注。

而且还采用双向注意力机制进一步增强了模型对表格数据的理解能力。

一方面,通过1D特征注意力机制,同一特征列的单元格之间可以相互关联和传递信息,使模型能够捕捉到不同样本在同一特征上的变化规律和关系。

另一方面,1D样本注意力机制让不同样本行的单元格进行信息交互,从而识别出不同样本之间的整体差异和相似性。

这种双向注意力机制保证了无论样本和特征的顺序如何改变,模型都能稳定地提取和利用其中的信息,从而提高了模型的稳定性和泛化能力。

表格处理神器登上Nature!开箱即用,平均2.8s解读任意表格

而且后续还进一步优化了模型训练和推理过程

比如为了减少重复计算,当模型进行测试样本推理时,允许直接利用之前保存的训练状态,避免了对训练样本的重复计算。因为训练阶段的表格数据都是单独处理和学习的,已经有所保存。

同时,模型还通过采用半精度计算、激活检查点等方法,进一步减少了内存占用。

最后,在模型实际预测生成阶段。由于借助上下文学习(ICL)机制,模型无需针对每个新数据集进行大量的重新训练,从而可以直接应用于各种未曾见过的现实世界数据集了。

表格处理新SOTA

在定性实验中,与线性回归、多层感知器(MLP)、CatBoost等相比,它能够对多种不同的函数类型进行有效建模。(橙色表示训练数据,蓝色表示预测)

表格处理神器登上Nature!开箱即用,平均2.8s解读任意表格

而在另一方面,在AutoML Benchmark和OpenML – CTR23等广泛使用且具有代表性的数据集上进行评估时,TabPFN比Random Forest、XGBoost等先进的基线方法取得了更多SOTA,涵盖了分类和回归两种主要任务的多个指标。

表格处理神器登上Nature!开箱即用,平均2.8s解读任意表格

甚至在实际的5场Kaggle竞赛中,在训练样本少于10,000的情况下,TabPFN也都战胜了CatBoost。

最最后,TabPFN还支持针对特定数据集进行微调

表格处理神器登上Nature!开箱即用,平均2.8s解读任意表格

目前相关代码已开源,作者们还发布了一个API,允许使用他们的GPU进行计算。

表格处理神器登上Nature!开箱即用,平均2.8s解读任意表格

感兴趣的同学可以蹲一波了~

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 1 月
 12345
6789101112
13141516171819
20212223242526
2728293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手

共推空天领域智能化升级!趋境科技与金航数码强强联手 十三 2025-12-09 18:18:41 来源:量子位...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级

5天连更5次,可灵AI年末“狂飙式”升级 思邈 2025-12-10 14:28:37 来源:量子位 让更大规...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东

小冰之父李笛智能体创业,公司取名Nextie!陆奇是股东 Jay 2025-12-09 08:26:01 来源...
梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物!

梁文锋,Nature全球年度十大科学人物! 一水 2025-12-09 09:46:23 来源:量子位 来自安...
起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机”

起底“豆包手机”:核心技术探索早已开源,GUI Agent布局近两年,“全球首款真正的AI手机” 西风 202...
摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布

摩尔线程新一代GPU架构10天后发布 思邈 2025-12-09 15:46:09 来源:量子位 国内首个聚焦...
极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」

极客公园创新大会 2026在京落幕,罗永浩、张楠、何小鹏、刘靖康等共议 AI 时代「进程由我」 henry 2...