智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对

1,310次阅读
没有评论

智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对

  新智元报道  

编辑:好困

【新智元导读】为推动大模型开源生态,智源研究院发布全球最大面向中英文语义向量模型训练数据集。


9月15日,北京人工智能产业峰会暨中关村科学城科创大赛颁奖典礼现场,智源研究院发布面向中英文语义向量模型训练的大规模文本对数据集MTP(massive text pairs)。这是全球最大的中、英文文本对训练数据集,数据规模达3亿对,具有规模巨大、主题丰富、数据质量高三大特征,进而可以推动解决中文模型训练数据集缺乏问题。智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对通用语义向量模型是决定大模型性能的关键组件,可以链接外模型与外部知识;由「关联文本」为基本元素的优质训练数据,是构建通用语义向量模型的核心要素。本次开源的MTP数据集,正是智源BGE中英文语义向量模型训练所用中英文数据。

3亿中英向量模型训练数据开放


数据在大模型训练中至关重要,构建高质量开源数据集,特别是用于训练基础模型的开源数据集对大模型发展意义重大,然而中文社区却鲜少数据开源贡献者。智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对本次发布的全球最大语义向量模型训练数据MTP,具备如下特征:

– 规模巨大:

3亿文本对,中文1亿,英文2亿。

– 主题丰富:

源自海量优质文本数据,涉及搜索、社区问答、百科常识、科技文献等多种主题。

– 数据质量高:

数据经过必要的采样、抽取、过滤获得;由该数据训练得到的语义向量模型BGE (BAAI General Embedding)性能大幅领先同类别模型。

智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对

MTP数据集链接:https://data.baai.ac.cn/details/BAAI-MTP

BGE 模型链接:https://huggingface.co/BAAI

BGE 代码仓库:https://github.com/FlagOpen/FlagEmbedding鉴于数据的重要性,智源在2021年就推出了全球最大语料库WuDaoCorpora,开放200GB高质量低风险中文语料,由400余个产学研单位合作,已有770多个研发团队申请,为微软、哈佛大学、斯坦福大学、华为、阿里巴巴、腾讯、鹏城实验室等提供数据服务,有效支撑全球大模型相关研究。

今年开放的最大规模、可商用、持续更新的中文开源指令数据集COIG,由来自全球40余个机构的100多名工程师共同参与,创造了跨越国界、紧密合作的全球数据开源动人故事。

下载达数十万,广受欢迎的BGE模型升级更新


BGE 语义向量模型一经发布就备受大模型开发者社区关注,目前Hugging Face累计下载量达到数十万,且已被LangChain, LangChain-Chatchat, llama_index 等知名开源项目集成。

智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对

中文语义向量模型评测(C-MTEB)  

智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对

 英文语义向量模型评测榜(MTEB)

智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对

 Langchain官方推文:「BGE模型在MTEB基准上排名第一」

智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对

 LangChain联合创始人兼首席执行官Harrison Chase推荐基于社区反馈,BGE进一步优化更新,表现更加稳健、出色。具体升级如下:– 模型更新:BGE-*-zh-v1.5缓解了相似度分布问题,通过对训练数据进行过滤,删除低质量数据,提高训练时温度系数temperature至0.02,使得相似度数值更加平稳 。– 新增模型:开源BGE-reranker 交叉编码器模型,可更加精准找到相关文本,支持中英双语。不同于向量模型需要输出向量,BGE-reranker直接文本对输出相似度,排序准确度更高,可用于对向量召回结果的重新排序,提升最终结果的相关性。– 新增功能:BGE1.1增加难负样本挖掘脚本,难负样本可有效提升微调后检索的效果;在微调代码中增加在微调中增加指令的功能;模型保存也将自动转成 sentence transformer 格式,更方便模型加载。值得一提的是,日前智源联合Hugging Face发布了一篇技术报告,报告提出用C-Pack增强中文通用语义向量模型。

智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对

报告地址:https://arxiv.org/abs/2309.07597

构建大模型时代的类Linux生态


伴随2022年末ChatGPT 横空出世,全球大模型研发进入如火如荼的爆发期,而激烈的竞争与高昂的成本,也同时推动着开源崛起成为人工智能发展的关键推动力量。

标志性的事件是今年5月在全球人工智能圈广为流传的一篇Google内部文件,声称「开源AI将击败谷歌和OpenAI」;来自Meta的代表性开源模型 Llama则对当前产业发展起到至关重要的作用。

作为中国大模型开源生态圈的代表机构,智源正在着力打造FlagOpen飞智大模型技术开源体系,引领共建共享大模型时代的「类Linux」开源开放生态。

上线于2022年11月,正式发布于2023年2月,FlagOpen大模型技术开源体系先见性地预见大模型开源建设这一大势所趋。现在,智源大模型技术开体系 FlagOpen 新增 FlagEmbedding 版块,聚焦于 Embedding 技术和模型,BGE 是其中首个开源模型。

智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对

FlagEmbedding:https://github.com/FlagOpen/FlagEmbedding在BGE项目之外,FlagOpen还有包括大模型算法、模型、数据、工具、评测等重要组成部分。其中,FlagEval(天秤)大模型评测体系及开放平台,构建3维评测体系、覆盖600余项全面能力评测,旨在建立科学、公正、开放的评测基准、方法、工具集,协助研究人员全方位评估基础模型及训练算法的性能。每月发布的FlagEval大模型评测榜单,对主流模型进行多维评测解读,打造公正全面金标准,正在愈来愈成为大模型能力评价的风向标。

参考资料:

https://mp.weixin.qq.com/s/50U3blK0ROZSoNFl75TWHw智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对


智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对


智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对
智源发布全球最大中英文向量模型训练数据集!规模高达3亿文本对

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 9 月
 123
45678910
11121314151617
18192021222324
252627282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...