467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4

1,257次阅读
没有评论

467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4

  新智元报道  

编辑:alan 好困

【新智元导读】今天,Mistral AI公布了Mixtral 8x7B的技术细节,不仅性能强劲,而且推理速度更快!还有更强型号的Mistral-medium也已开启内测,性能直追GPT-4。


今天,Mistral AI正式放出了Mixtral 8x7B的技术细节——

在大多数基准测试中,Mixtral的表现不仅优于Llama 2 70B,而且推理速度提高了整整6倍!

尤其是,它在大多数标准基准测试上与GPT-3.5打平,甚至略胜一筹。

开源的Mixtral 8x7B自带了一些出色的表现:

比如可以很好地处理32k长度的上下文,支持英语、法语、意大利语、德语和西班牙语,且在代码生成方面表现出强大的性能。

另外,它可以微调为指令跟随模型(instruction-following model),在MT-Bench上获得了8.3分的好成绩。

467亿参数打平GPT-3.5

Mixtral是基于decoder-only架构的稀疏专家混合网络。

它的前馈模块从8组不同的参数中进行选择。在每一层网络中,对于每个token,路由器网络选择8组中的两组(专家),来处理token并将其输出累加组合。

这种技术增加了模型的参数数量,同时控制了成本和延迟,因为模型只使用每个token参数集总数的一小部分。

Mixtral有46.7B的总参数量,但每个token只使用其中12.9B参数。因此,Mixtral的实际执行速度和所需的成本,都只相当于一个12.9B的模型。

Mixtral根据从开放网络中提取的数据进行预训练——包括训练专家网络和路由模块。

性能实测

如下图所示,在大多数基准测试中,Mixtral与Llama 2 70B和GPT-3.5表现相当,其中的几项测试结果还要优于另外两个模型。

467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4

下图展示了模型生成质量与推理消耗成本的关系。与Llama 2相比,Mistral 7B和Mixtral 8x7B表现出自己高能效的优势。

467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4

更加详细的比较结果看下面的表格:

467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4

下面来看下模型在幻觉和偏见问题上的表现。

公平起见,为了避免微调或者偏好建模带来的影响,这里使用BBQ和BOLD来测试基本模型的性能。

467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4

从上面的结果可以看出,与Llama 2相比,Mixtral更真实,并且在BBQ基准上表现出更少的偏差。

另外,Mixtral在BOLD上表现出比Llama 2更积极的情绪,每个维度的差异相似。

467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4

上表中,在各种支持的语言上与Llama 2进行PK,Mixtral 8x7B可以说是「精通」法语、德语、西班牙语、意大利语和英语。

本次发布的Mixtral 8x7B Instruct和Mixtral 8x7B,已通过监督微调和直接偏好优化(DPO)进行了优化,并实现了指令的跟随。

在MT-Bench上,它的得分达到了8.30——是目前开源模型的最好成绩,性能可与GPT-3.5相媲美。

用户还可以通过提示的方式,进一步约束Mixtral,从而构建一些需要严格审核级别的应用程序。

另外,为了使社区能够使用完全开源的堆栈运行Mixtral,开发人员提交了对vLLM项目的更新,并集成了Megablocks CUDA内核以实现高效推理。

逼近GPT-4,「中杯」开启内测

与此同时,Mistral AI还开放了首个平台服务的测试版——la plateforme。

其中,平台提供了三个基于指令生成文本的聊天模型,以及一个嵌入模型。

目前,mistral-tiny和mistral-small已经正式发布,而性能更强的mistral-medium还处在测试阶段。

这些模型首先在开放网络抽取的数据上进行预训练,随后通过标注进行指令微调,并融合了最为有效的对齐技术(如高效微调、直接偏好优化)。

– Mistral-tiny

基于Mistral 7B Instruct v0.2的Mistral-tiny是最具性价比的模型,它在MT-Bench上的得分为7.6,但仅支持英语。

– Mistral-small

作为最新开源的模型,Mixtral 8x7B在MT-Bench上的得分达到了8.3,并支持英语、法语、意大利语、德语、西班牙语和代码生成。

– Mistral-medium

这是Mistral AI推出的最强开源模型,虽然目前还处在原型阶段,但它在主流评测上已经可以实现对GPT-3.5的碾压了!

Mistral-medium在MT-Bench上拿下了8.6的高分,同样支持英语、法语、意大利语、德语、西班牙语和代码生成。

467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4

– Mistral-embed

除了文本生成模型外,Mistral还提供了一个具有1024嵌入维度的嵌入模型。

设计模型时,团队着重增强了它的检索功能,从而在MTEB上实现了高达55.26的检索得分。

从测试到全面开放

从今天起,任何人都可以注册并使用Mistral的API。

该API与其主要竞品类似,并且支持PythonJavascript客户端库,从而让用户可以方便地检查模型端点。

此外,Mistral还允许用户设置系统提示,以便在模型输出中实施更高级别的内容审查。这一功能对于某些应用来说非常重要。

不过,由于平台还处在测试阶段,使用过程中可能会出现一些小的问题。

致谢

感谢英伟达在TensorRT-LLM和Triton的整合,以及使专家稀疏混合模型与TRT-LLM兼容方面,提供的支持。

网友热议

鉴于Mistral-Medium的强力表现,有网友翻出了GPT-4在相关测试中的分数:

467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4

467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4

结果,Mistral-Medium在Winogrande基准测试中优于GPT-4。

由于Mistral-Medium的能力貌似可与GPT-4一战,所以有网友自然开始比较两者的价格。

467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4

467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4

这位网友表示Mistral-Medium的价格约为GPT4-turbo价格的1/4,比自己预期的要昂贵。

对此,也有网友表示反对:「恕我直言,这个价格很公道。小规模模型和GPT-3.5相当,并且更便宜。中等的价格则要高很多,但仍然只有GPT4-turbo的1/4。」

467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4

另外也有网友讨论和猜测新的Mixtral 8x7B的技术内幕:

467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4

通过比较Mixtral 8x7B和Mistral 7B每层的相似度,这位网友指出Mistral可能已经大规模地进行了稀疏的升级再造工作。

467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4

「两个模型的权重之间的显著相关性证明了模型的成功重用。这种方法可以赋予OSS社区自己强大的MoE!希望我们能尽快看到类似于GPT-4的开源质量!」

参考资料:https://mistral.ai/news/mixtral-of-experts/467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4

467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4
467亿参数MoE追平GPT-3.5!爆火开源Mixtral模型细节首公开,中杯逼近GPT-4

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2023 年 12 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山

库克提拔复旦校友掌舵苹果基础模型!庞若鸣走后涨薪止血,谷歌旧部占据半壁江山 衡宇 2025-12-21 10:...
清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026

清华孙茂松:对工业界而言,大厂可以Scaling,其他玩家重在垂直应用 | MEET2026 Jay 2025...
奥迪+华为=油车智能天花板?

奥迪+华为=油车智能天花板?

Failed to fetch content Read More 
LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了

LeCun离职前的吐槽太猛了 一水 2025-12-21 19:13:08 来源:量子位 “LLM到不了AGI...
自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026

自变量王潜:具身智能是物理世界的独立基础模型|MEET2026 一水 2025-12-21 19:11:12 ...