LLM能替代数据科学家了?DeepAnalyze帮你告别手动分析数据

368次阅读
没有评论

LLM能替代数据科学家了?DeepAnalyze帮你告别手动分析数据

你是否还在为复杂的文件和海量数据而苦恼?

DeepAnalyze团队 投稿
量子位 | 公众号 QbitAI

你是否还在为复杂的文件和海量数据而苦恼?是否希望能够自动从数据中挖掘出真正有价值的信息?

最近,来自人大与清华的研究团队推出DeepAnalyze —— 你的专属「数据科学家」。只需一个指令,它便能自动化分析你的数据、自主完成各类数据科学任务:

  • 数据任务:支持自动化数据准备、数据分析、数据建模、数据可视化、数据洞察
  • 数据研究:可在非结构化数据、半结构化数据、结构化数据中进行开放式深度研究,生成研究报告

LLM能替代数据科学家了?DeepAnalyze帮你告别手动分析数据

DeepAnalyze是首个面向数据科学的Agentic LLM,无需任何workflow,仅凭一个LLM即可像数据科学家一样,自主完成多种复杂的数据任务。

DeepAnalyze的论文、代码、模型、数据均已开源,收获1.1K+GitHub星标,欢迎大家体验!

DeepAnalyze —— 你的专属「数据科学家」

DeepAnalyze在环境中自主编排和优化各种操作,完成复杂的数据科学任务。

DeepAnalyze在真实环境中学习复杂任务

数据无处不在,而数据科学一直被视为人类智能的重要体现。从Kaggle比赛到日常的数据分析实践,大量评测都在考察数据科学家在数据准备、分析、建模、可视化与洞察等方面的综合能力。

当前的数据智能体(Data Agent)通常依赖人工设计workflow,来驱动大模型完成特定的数据分析与可视化任务。虽然在各类单点任务上已取得了令人瞩目的成果,但由于LLM的自主性仍然有限,它们距离理想的“全能自主数据科学家”依然存在明显差距。

随着大型语言模型智能水平的不断提升,一个关键问题也愈发突出:如何让LLM真正具备自主完成复杂数据科学任务的能力?

LLM能替代数据科学家了?DeepAnalyze帮你告别手动分析数据

DeepAnalyze通过在真实环境中训练,学会自主编排、自适应优化操作,最终完成复杂的数据科学任务。为实现此,DeepAnalyze提出课程学习式Agentic训练范式(Curriculum-based Agentic Training ofDeepAnalyze)和面向数据的轨迹合成框架(Data-grounded Trajectory Synthesis)。

课程学习式Agentic训练

数据科学任务本身具有高度复杂性,这让基础LLM在早期训练阶段往往难以顺利完成任务。任务复杂性导致模型几乎得不到正向奖励信号(即“奖励稀疏”问题),强化学习过程容易停滞,甚至出现训练崩溃的情况。

为了解决这一难题,DeepAnalyze提出了「课程学习式 Agentic 训练」。其模拟人类数据科学家的学习路径,让LLM在真实环境中从简单到复杂、从单一任务到综合任务逐步进阶。通过这种渐进式训练,模型的能力得以稳步提升,避免在复杂任务中因为“奖励信号为零”而导致学习失败。

训练过程包括两大阶段:

  • 单能力微调:
    训练LLM在代码生成、结构化数据理解、逻辑推理等方面的基础能力;
  • 多能力Agentic训练:
    在真实任务环境中,让LLM学会运用多种能力,像数据科学家一样自主完成复杂任务。

面向数据的轨迹合成

在数据科学领域,缺乏完整的长链问题求解轨迹,这让LLM在探索解题空间时缺乏有效指导,只能进行低效、盲目的“试错式”探索,难以获得有意义的中间监督信号。

为了解决这一难题,DeepAnalyze提出了「面向数据的轨迹合成」方法。其能够自动合成50万条数据科学推理与环境交互数据,为大模型在庞大的搜索空间中提供正确路径的示范和引导。

数据合成包含两个关键部分:

  • 推理轨迹合成:
    基于现有的 TableQA、结构化知识理解、数据科学代码生成任务,构建带有完整推理路径的训练数据;
  • 交互轨迹合成:
    构建多智能体系统,从结构化数据源(如Spider和BIRD)中自动合成数据科学交互轨迹,提供和真实环境的交互轨迹。

DeepAnalyze支持面向数据的深度研究

DeepAnalyze支持面向数据的深度研究,能够自动生成具备分析师水准的研究报告。
在数据研究报告生成任务中,无论是内容深度还是报告结构,DeepAnalyze的表现都显著优于现有的闭源LLM。

LLM能替代数据科学家了?DeepAnalyze帮你告别手动分析数据

分析报告:

LLM能替代数据科学家了?DeepAnalyze帮你告别手动分析数据

作者介绍

LLM能替代数据科学家了?DeepAnalyze帮你告别手动分析数据

张绍磊,中国人民大学信息学院助理教授,位于中国人民大学讲席教授范举教授团队。

他博士毕业于中国科学院计算技术研究所,导师为冯洋研究员。他的研究方向涵盖大语言模型、多模态大模型、AI for Data Science。

相关研究成果在NeurIPS、ACL、ICLR等国际人工智能与自然语言处理会议发表论文30余篇,开源的多语言大模型、多模态大模型、数据科学大模型在GitHub社区累计获得5000+星标。

他长期担任CCF-A类国际会议ACL ARR的领域主席和责任编辑。个人主页:zhangshaolei1998@github.io。

LLM能替代数据科学家了?DeepAnalyze帮你告别手动分析数据

范举,中国人民大学教授、博士生导师,国家级青年人才,中国计算机学会数据库专委会、大数据专委会执行委员。

研究方向包括:数据治理技术与系统、智能数据库系统等。

相关研究成果在计算机领域国际顶级期刊/会议发表论文60余篇。作为负责人先后主持国家自然科学基金优秀青年基金项目、重点项目、面上项目,以及多项产学研合作项目。

先后获得ICDE 2025 Best Paper Runner-Up、ACM SIGMOD Research Highlight Award、ACM China Rising Award、宝钢优秀教师等奖励。

团队介绍:

RUC-DataLab是中国人民大学信息学院、数据工程与知识工程教育部重点实验室设立的科研团队,负责人是范举教授,团队专注于数据系统+人工智能 (Data+AI)交叉领域,致力于将数据技术与人工智能技术深度融合,从而打造更加智能、高效的新型数据系统。

实验室的研究方向包括:(1)数据库系统智能化(AI4DB):利用人工智能技术提升数据库系统的查询性能、自治能力等;(2)数据库技术赋能AI系统(DB4AI):利用数据管理技术支撑大模型训练的高效处理、大模型推理的低延迟、高吞吐优化;(3)数智融合的新型数据科学系统(AI4DS):利用推理大模型、多模态语义理解与智能体等技术,提升数据科学系统的智能化水平与执行性能,有效释放数据价值。

论文:https://arxiv.org/pdf/2510.16872
代码:https://github.com/ruc-datalab/DeepAnalyze
模型:https://huggingface.co/RUC-DataLab/DeepAnalyze-8B
数据:https://huggingface.co/datasets/RUC-DataLab/DataScience-Instruct-500K
更多示例:https://ruc-deepanalyze.github.io/

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 11 月
 12
3456789
10111213141516
17181920212223
24252627282930
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了

企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了

企业级智能体落地,谁没踩这四种大坑?无问芯穹的系统性解法来了 衡宇 2025-12-16 20:10:53 来...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026

小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026 克雷西 2025-...
顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式

顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式

顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式 思邈 2025-12-16 10:24:0...
PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026

PPIO姚欣:AI正在进入自主行动与创造时代,智能体需要全新的操作系统|MEET2026 梦瑶 2025-12...
Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控

Dexmal原力灵机提出ManiAgent,用多智能体协作重构机器人操控 量子位的朋友们 2025-12-16...
推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码

推特吵架吵出篇论文!谢赛宁团队新作iREPA只要3行代码 henry 2025-12-16 15:03:31 ...