面向数学推理的开源大模型训练数据集:MathPile预训数据及7个微调数据集合

525次阅读
没有评论

今天是2023年12月29日,星期五,北京,天气晴,今天是2023年最后一个打工日。

最近做大模型数学垂直能力上的工作,很有趣,而与模型最为相关的,实际上是数学相关的训练数据集。

因此,我们来看看数学的相关数据集的事儿,其中涉及到一个mathpile的工作,其基于现有的文本训练数据集,进行清洗转换去污染等操作,得到了一个9.5B token的数据集,可供申请使用。

而与其相对应的微调数据,当前也有包括school_math_0.25M等多个数学解题微调数据。

本文对这些工作进行梳理,供大家一起参考。

一、数学预训练数据集:MathPile

文章《Generative AI for Math: Part I MATHPILE: A Billion-Token-Scale Pretraining Corpus for Math 》(https://arxiv.org/pdf/2312.17120.pdf)中提出了MathPile

1、现有的其他数学数据集

数据集主要有proofpile,AMPS等,具体对比信息如下:

面向数学推理的开源大模型训练数据集:MathPile预训数据及7个微调数据集合

2、MathPile数据集

从不同来源收集数据(约520B个token),然后经过严格的处理过程,获得了一个以数学为中心的语料库,包含9.5B的token,如下所示:

面向数学推理的开源大模型训练数据集:MathPile预训数据及7个微调数据集合

数据集地址:https://huggingface.co/datasets/GAIR/MathPile/tree/main

3、数据集的分布

如下所示,分别从textbooks,wikipedia,proofwiki,commoncrwall,stackexchange,arxiv中进行收集,构成如下:

面向数学推理的开源大模型训练数据集:MathPile预训数据及7个微调数据集合

当然,也可以对构成的数据集进行长度的分布,如下所示:

面向数学推理的开源大模型训练数据集:MathPile预训数据及7个微调数据集合

4、数据获取

数据放在huggingface,但需要提交申请才能下载,感兴趣并需要的可以查看:

面向数学推理的开源大模型训练数据集:MathPile预训数据及7个微调数据集合

二、数据的微调数据集

1、school_math_0.25M

school_math_0.25M共包括25万条数学题,样式如下:

面向数学推理的开源大模型训练数据集:MathPile预训数据及7个微调数据集合

地址:https://huggingface.co/datasets/BelleGroup/school_math_0.25M/resolve/main/school_math_0.25M.json

2、腾讯人工智能实验室发布网上爬取的数学问题APE210k

地址:https://github.com/Chenny0808/ape210k

3、猿辅导 AI Lab开源小学应用题Math23K

地址:https://github.com/SCNU203/Math23k/tree/main

4、grade school math

OpenAI的高中数学题有改造成指令样本有2-8步推理过程

地址:https://huggingface.co/datasets/qwedsacf/grade-school-math-instructions

5、math_qa数据集

有推理过程和多项选择。

地址:https://huggingface.co/datasets/math_qa/

6、AMC竞赛数学题

地址:https://huggingface.co/datasets/competition_math

7、线性代数等纯数学计算题

地址:https://huggingface.co/datasets/math_dataset

总结

本文主要介绍了面向数学的训练数据和微调训练数据,这对提升基础模型数学运算能力有直接帮助,感兴趣的可以对这些数据进行研究,会有更多收获。

参考文献

1、https://arxiv.org/pdf/2312.17120.pdf

关于我们

老刘,刘焕勇,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。

老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。

对于想加入更优质的知识图谱、事件图谱、大模型AIGC实践、相关分享的,可关注公众号,在后台菜单栏中点击会员社区->会员入群加入。

​​​ 

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy