RedPajama开源项目|复制超过1.2万亿个令牌的LLaMA训练数据集

1,704次阅读
没有评论

GPT-4等基础模型推动了人工智能的快速改进。然而,最强大的模型是封闭式商业模型或只是部分开放模型。RedPajama是一个创建一组领先的、完全开源模型的项目。今天,我们很高兴地宣布该项目的第一步已经完成:复制超过1.2万亿个令牌的LLaMA培训数据集。

当今最有能力的基金会模型被关闭在商业API后面,这限制了研究、定制及其与敏感数据的使用。如果开放社区能够缩小开放和封闭模型之间的质量差距,完全开源模型有望消除这些限制。最近,这方面取得了很大进展。在许多方面,人工智能正在经历其Linux时刻。稳定的扩散表明,开源不仅可以与DALL-E等商业产品的质量相媲美,还可以从世界各地社区的广泛参与中获得令人难以置信的创造力。随着最近发布的LLaMAAlpacaVicunaKoala等半开放模型,以及PythiaOpenChatKitOpen AssistantDolly等全开放模型,围绕大型语言模型开始了类似的运动。

我们正在推出RedPajama,努力制作一个可复制的、完全开放的、领先的语言模型。RedPajama是Together、Ontocord.aiETH DS3LabStanford CRFMHazy ResearchMILA Québec AI Institute之间的合作。RedPajama有三个关键组成部分:

  1. 培训前数据,既需要高质量又具有广泛的覆盖范围

  2. 基于这些数据进行大规模训练的基本模型

  3. 指令调优数据和模型,改进了基本模型,使其可用和安全

今天,我们发布了第一个组件,训练前数据。

“RedPajama基础数据集是按照LLaMA论文中描述的配方创建的1.2万亿个令牌完全开放数据集。”

我们的出发点是LLaMA,它是领先的开放基础模型套件,原因有二:首先,LLaMA接受了非常大的(1.2万亿个令牌)数据集的培训,该数据集经过仔细过滤以获得质量。其次,70亿参数LLaMA模型的训练时间要长得多,远远超出了Chincilla最优点,以确保该模型尺寸的最佳质量。70亿参数模型对开放社区特别有价值,因为它可以在各种GPU上运行,包括许多消费级GPU。然而,LLaMA及其所有衍生物(包括羊驼、维库纳和考拉)仅用于非商业研究目的。我们的目标是创建LLaMA的完全开源复制,可用于商业应用,并为研究提供更透明的管道。

 

RedPajama基础数据集

完整的RedPajama 1.2万亿令牌数据集和更小、更消耗的随机样本可以通过Hugging Face下载。完整的数据集在磁盘上解压缩了~5TB,下载压缩了~3TB。

RedPajama-Data-1T由七个数据片组成:

  • CommonCrawl:五个CommonCrawl转储,使用CCNet管道处理,并通过几个质量过滤器过滤,包括为类似维基百科的页面选择的线性分类器。

  • C4:标准C4数据集

  • GitHub:GitHub数据,按许可证和质量过滤

  • arXiv:去除样板的科学文章

  • 书籍:开放书籍的语料库,因内容相似性而重复

  • 维基百科:维基百科页面的子集,删除样板

  • StackExchange:StackExchange下流行网站的子集,删除样板

对于每个数据切片,我们都会进行仔细的数据预处理和过滤,并调整质量过滤器,以大致匹配Meta AILLaMA论文中报告的令牌数量:

 
红帕贾马
LLaMA*

通用爬行
878亿
8520亿

C4
175亿
1900亿

GitHub
59亿
1000亿

图书
26亿
250亿

ArXiv
280亿
330亿

维基百科
24亿
250亿

StackExchange
20亿
27亿

总数
1.2万亿
1.25万亿

*从https://arxiv.org/abs/2302.13971中的表1中估计

我们正在Github上公开提供所有数据预处理和质量过滤器。任何人都可以遵循数据准备配方并复制RedPajama-Data-1T。

 

交互式分析RedPajama基础数据集

Meerkat项目合作,我们正在发布Meerkat仪表板和嵌入,用于探索语料库的Github子集。下图显示了仪表板的预览。

RedPajama开源项目|复制超过1.2万亿个令牌的LLaMA训练数据集

您可以在Github上找到有关如何安装和使用仪表板的说明。

 

下一页:模型、说明和OpenChatKit

在复制了训练前数据后,下一步是训练一个强大的基础模型。作为INCITE计划的一部分,在橡树岭领导力计算设施(OLCF)的支持下,我们正在培训一整套模型,第一批模型将在未来几周内推出。

有了强大的基础模型,我们很高兴能指导调整模型。羊驼展示了指令调优的力量——只需50K高质量、多样化的指令,它就能解锁显著改进的能力。通过OpenChatKit,我们收到了数十万个高质量的自然用户指令,这些指令将用于发布RedPajama模型的指令调整版本。

 

致谢

我们感谢不断增长的开源人工智能社区所做的工作,这些工作使这个项目成为可能。

这包括:

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 4 月
 12
3456789
10111213141516
17181920212223
24252627282930
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...