华盛顿大学&MetaAI：使用无监督领域发现扩展专家语言模型

1,323次阅读

大型语言模型通常是密集训练的：所有参数均根据所有输入进行更新。这需要在数千个GPU之间同步数十亿个参数。本文引入了一种简单而有效的方法，可以在任意文本语料库上异步训练大型稀疏语言模型。本文的方法将语料库聚类成相关文档集，针对每个集群训练一个单独的专家语言模型，并在推理时将它们组合成一个稀疏集合。这种方法通过自动发现每个专家的域，推广了尴尬的并行训练，并消除了现有稀疏语言模型的几乎所有通信开销。本文的技术在多个语料库和少样本任务上优于密集基线，并且分析表明，专家针对有意义的群集进行专业化是取得这些收益的关键。性能也随着专家数量和训练数据的规模增加而提高，表明这是一种高效且可访问的大型语言模型训练方法。

标题：Scaling Expert Language Models with Unsupervised Domain Discovery

作者：Suchin Gururangan, Margaret Li, Mike Lewis, Weijia Shi, Tim Althoff, Noah A. Smith, Luke Zettlemoyer

论文：https://papers.labml.ai/api/v1/redirect/pdf?paper_key=007ddf7ccc4211edb95839eec3084ddd

华盛顿大学&MetaAI：使用无监督领域发现扩展专家语言模型

正文完

可以使用微信扫码关注公众号（ID：xzluomor）

AI AR RSS 大型语言模型技术

发表至：智源

2023年3月27日

五个早期的例子告诉你，可以用OpenAI的GPT Builder做什么?

展望“AGI元年”，这个“AI大模型+”大会，值得一看

强强联手！被辉瑞看上的AI药企，与全球最大化学数据库公司达成合作

OpenNet打开目标检测新视野 | 蒸馏+不平衡损失让目标检测拥抱不公平的开放视界

BlenderGPT：使用英语命令基于OpenAI的GPT-4控制Blender

【一周出海参考（03.20-03.26）】2月亚洲发往美国的集装箱同比减少29％；亚洲至墨西哥海运价格上涨29%；2022年人民币跨境支付系统业务保持增长；中国童装加速出海；2022年美客多汽车零件部销售额增长53%

评论（没有评论）

2023 年 3 月
一	二	三	四	五	六	日
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

文心AIGC

人工智能ChatGPT，AIGC指利用人工智能技术来生成内容，其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向，近几年迭代速度呈现指数级爆发，谷歌、Meta、百度等平台型巨头持续布局

文章搜索

最新评论

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

经典留声机

经典流行从来都不冲突

在这里，听见你曾经的故事

新浪微博：主播小D

小红书：小D就是我

抖音号：52915017

Search Episodes

薛之谦：从“人歌分离”到“深情解构者”的音乐涅槃之路（上）

2025年6月30日

主播小D

你一定听过这些经典合唱–第一篇

2025年1月20日

主播小D

缅怀一代歌王罗文的经典之声–第二篇

2024年12月30日

主播小D

缅怀一代歌王罗文的经典之声–第一篇

2024年12月27日

主播小D

在这里，听琼瑶，岁月长歌–第二篇

2024年12月24日

主播小D

在这里，听琼瑶，岁月长歌–第一篇

2024年12月21日

主播小D

你总能在这些歌里找到你的回忆–第一百零三篇

2024年12月18日

主播小D

你总能在这些歌里找到你的回忆–第一百零四篇

2024年12月13日

主播小D

《这些歌都发行在2001年–第三篇》

2024年12月10日

主播小D

《这些歌都发行在2001年–第二篇》

2024年12月7日

主播小D

Search Results placeholder

2023 年 3 月
一	二	三	四	五	六	日
	1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31