社区供稿 | 打造生成式人工智能压舱石,智源联合共建单位开源可信中文互联网语料库CCI

1,289次阅读
没有评论

社区供稿 | 打造生成式人工智能压舱石,智源联合共建单位开源可信中文互联网语料库CCI在中国网络空间安全协会人工智能安全治理专业委员会数据集工作组、北京市委网信办、北京市科委、中关村管委会、海淀区政府的支持下,智源研究院联合拓尔思、中科闻歌共建了 “中文互联网语料库”(Chinese Corpora Internet,简称 CCI),旨在为国内大数据及人工智能行业提供一个安全、可靠的语料资源,并以此为契机促进不同机构合作,共同推动大数据和人工智能领域的健康发展。

项目背景

随着大模型的快速发展,业界及学界对高质量数据集的需求日益增长。这些数据集不仅需要包含大量信息,而且还需经过严格的筛选和清洗,以确保其准确性和下游模型及应用的安全。然而,当前业内流行的公开数据集均存在一定质量和安全风险,中文领域尤其缺乏高质量、符合安全要求的数据集。另外,构建一个符合安全要求的中文数据集也面临诸多挑战。
首先是语料内容的安全风险。当前,很多公开数据集存在以下问题:

  1. 数据来源杂乱,存在诸多潜在内容风险,导致模型及应用存在潜在安全隐患;
  2. 侵害他人合法权益:如隐私权、版权等,导致模型生成内容对个人或团体产生不利影响;
  3. 歧视性内容:包含对特定群体的不公正或偏见性描述,影响模型的公正性和可接受度;
  4. 虚假数据:不真实的信息可能导致模型训练结果偏差,影响模型的有效性和可靠性。

其次,内容清洗也存在突出的问题。目前,不同机构在内容清洗上的标准不一,对负面信息或违法违规信息的分类体系也大相径庭。由于缺乏统一的标准和认识,各机构在内容审核与安全过滤上投入了大量的人力和物力,但效果仍不理想。此外,大量的过滤规则需要非常及时地根据监管部门的业务指令和舆情热点事件不断更新,这对数据集迭代更新速度提出了新的要求。

因此,开源一个经过严格筛选和标准化处理的数据集对于大模型技术创新与发展尤为重要,只有更为广泛的合作和资源共享才能完成这项艰巨的任务。

中文互联网语料库CCI 

中文互联网语料库CCI在数据来源上均为高质量可信、中国境内的互联网站,经过严格的数据清洗和去重,并且在内容质量、价值观等方面进行了针对性的检测与过滤,进一步提升数据质量和安全可信程度。此次数据处理规则包括:

  • 基于规则的过滤:文字密度提取、敏感词过滤、垃圾信息过滤、简繁体转换等;
  • 基于模型的过滤:低质量内容过滤;
  • 数据去重:数据集内部 / 数据集间去重;

此外,由于大语言模型的预训练数据规模庞大,容易引发评测数据泄露。一旦评测数据不小心进入预训练数据,将导致大模型“被动刷题”的后果,对大模型团队容易带来负面影响。为此,我们在数据处理过程中采用了多种检索技术,对当前主流的多个中文评测数据集进行严格筛查和过滤。本数据集也是首个针对当前主流评测数据集进行严格过滤的开源数据集,包含以下方法:

  • 基于规则匹配:字符串匹配、模糊匹配等;
  • 基于信息检索方法:TF-IDF、BM25等;
  • 过滤的中文评测数据集包括:C-Eval、CMMLU、GAOKAO、CLUE等。

CCI语料库首期开放的数据(CCI v1.0.0)规模为 104GB。数据集总体的时间跨度为2001年1月至2023年11月。

下载地址:

  • 智源开放数据仓库: https://data.baai.ac.cn/details/BAAI-CCI
  • Hugging Face:https://hf.co/datasets/BAAI/CCI-Data

未来,智源研究院与共建单位将继续在CCI语料库的基础上,进一步扩充数据来源、完善数据处理流程,不断提升语料库规模并提升数据集的质量,为大模型开源社区提供更多的高质量、可信的数据资源。

秉承开源开放精神

建设高质量、高可信度、高安全性的中文数据集

智源研究院致力于构建高质量、高可信度、高安全性的中文数据集,推动数据资源的开源开放,支持和促进学术研究与技术发展。

作为非营利研究机构,智源研究院秉承开源开放精神,持续推动中国高质量中文数据资源的有效利用。我们致力于加速数据处理标准、技术、工具以及支持平台的研发,以提升数据处理的效率和质量,已经开放的主要成果包括:

  • 2021年,智源推出全球最大语料库WUDAO copora,开放200GB高质量低风险中文语料,由400余个产学研单位合作,已有770多个研发团队申请,为微软、哈佛大学、斯坦福大学、华为、阿里巴巴、腾讯、鹏城实验室等提供数据服务,有效支撑全球大模型相关研究。
  • 2023年6月,开放最大规模、可商用、持续更新的中文开源指令数据集COIG,由来自全球40余个机构的100多名工程师共同参与,创造了跨越国界、紧密合作的全球数据开源成果。
  • 2023年9月,开源全球最大的中英文文本对语义向量模型训练数据集MTP(massive text pairs),数据规模达3亿对(其中中文1亿,英文2亿)。文本主题丰富,源自海量优质文本数据,涉及搜索、社区问答、百科常识、科技文献等多种主题。由该数据集训练得到的语义向量模型BGE (BAAI General Embedding) 性能大幅领先同类别模型。


本文由 H
ugging Face 中文社区内容共建项目提供,稿件由社区成员投稿,经授权发布于 Hugging Face 公众号。文章内容不代表官方立场,文中介绍的产品和服务等均不构成投资建议。了解更多请关注公众号:

如果你有与开源 AI、Hugging Face 相关的技术和实践分享内容,以及最新的开源 AI 项目发布,希望通过我们分享给更多 AI 从业者和开发者们,请通过下面的链接投稿与我们取得联系:https://hf.link/tougao

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 11 月
 12345
6789101112
13141516171819
20212223242526
27282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...