“Mistral发布了Mistral Large,MMLU评分仅次于GPT-4,32K上下文,不支持中文,可以通过La Plateforme和Azure调用API。同时宣布与微软合作,不知道OpenAI是不是开始慌了”
Mistral Large,Mistral的旗舰模型
Mistral正在发布 Mistral Large,这是他们最新、最先进的语言模型。
Mistral Large 可通过 Plateforme 获取。还可以通过 Azure(Mistral的第一个分销合作伙伴)提供该模型。Mistral Large 是Mistral的新旗舰模型。
官方博客:https://mistral.ai/news/mistral-large/
Mistral Large 是Mistral最新的尖端文本生成模型,具有顶级的推理能力。它可用于复杂的多语言推理任务,包括文本理解、转换和代码生成。
Mistral Large 在常用基准测试中取得了优异的成绩,使其成为全球排名第二的可通过 API 获取的模型(仅次于 GPT-4)[详见下文关于基准测试的说明]。
Mistral Large 带来了新的能力和优势:
- 它的母语级别流畅掌握了英语、法语、西班牙语、德语和意大利语,对语法和文化背景有细致的理解。
- 其32Ktoken的上下文窗口允许从大型文档中精确回忆信息。
- 其精确的指令执行能力使开发者能够设计他们的审查策略——Mistral用它来设置 le Chat 的系统级别审查。
- 它具有原生的函数调用能力。这一点,加上在 la Plateforme 上实现的受限输出模式,使得大规模的应用开发和技术堆栈现代化成为可能。
Mistral与微软合作,在 Azure 上提供他们的模型
在 Mistral的使命是使前沿的人工智能无处不在。这就是为什么Mistral今天宣布将把他们的开放和商业模型带到 Azure。微软对Mistral模型的信任是Mistral前进道路上的一大步!Mistral的模型现在可通过以下方式获取:
- La Plateforme:安全地托管在欧洲的 Mistral 基础设施上,此访问点使开发者能够在Mistral全面的模型范围内创建应用和服务。
- Azure:Mistral Large 可通过 Azure AI Studio 和 Azure Machine Learning 获取,用户体验与Mistral的 API 一样无缝。Beta 客户已经成功地使用了它。
- 独立部署:Mistral的模型可以在开发者的环境中部署,用于最敏感的使用场景,并可以访问模型权重;阅读关于这种部署的成功案例,并联系Mistral的团队以获取更多详情。
Mistral Large的能力
Mistral将 Mistral Large 的性能与常用基准测试中的顶级语言模型进行比较。
推理和知识能力
Mistral Large 展示了强大的推理能力。在下图中,Mistral报告了预训练模型在标准基准测试中的性能。
图 2:市场上顶级语言模型在广泛的常识、推理和知识基准测试中的性能:MMLU(衡量大规模多任务语言理解)、HellaSwag(10-shot)、Wino Grande(5-shot)、Arc Challenge(5-shot)、Arc Challenge(25-shot)、TriviaQA(5-shot)和 TruthfulQA。
多语言能力
Mistral Large 具有原生的多语言能力。在法语、德语、西班牙语和意大利语的 HellaSwag、Arc Challenge 和 MMLU 基准测试中,它的性能远超过 LLaMA 2 70B。
图 3:Mistral Large、Mixtral 8x7B 和 LLaMA 2 70B 在法语、德语、西班牙语和意大利语的 HellaSwag、Arc Challenge 和 MMLU 基准测试中的比较。
数学和编程能力
Mistral Large 在编程和数学任务中表现出顶级性能。在下表中,Mistral报告了一些市场上顶级语言模型在一系列热门基准测试中的编程和数学性能。
图 4:市场上领先的语言模型在热门编程和数学基准测试中的性能:HumanEval pass@1、MBPP pass@1、Math maj@4、GSM8K maj@8(8-shot)和 GSM8K maj@1(5-shot)。
一款新的 Mistral Small,专为低延迟负载优化
与 Mistral Large 一起,Mistral发布了一款新的优化模型——Mistral Small,专为延迟和成本优化。Mistral Small 的性能超过了 Mixtral 8x7B,且延迟更低,使其成为Mistral开放权重产品和旗舰模型之间的精致中间解决方案。
Mistral Small 和 Mistral Large 一样,在 RAG 启用和函数调用方面受益于相同的创新。
Mistral简化了端点产品,提供以下内容:
具有竞争力定价的开放权重端点。
- 这包括 open-mistral-7B 和 open-mixtral-8x7b。
- 新的优化模型端点,mistral-small-2402 和 mistral-large-2402。Mistral将保留 mistral-medium,今天Mistral没有对其进行更新。
Mistral的基准测试全面展示了性能/成本的权衡。
除了新的模型产品外,Mistral还允许组织管理多币种定价,并在 la Plateforme 上更新了服务层次。Mistral还在降低所有端点的延迟方面取得了很多进展。
JSON 格式和函数调用
JSON 格式模式强制使语言模型的输出为有效的 JSON。这个功能使开发者能够更自然地与Mistral的模型进行交互,以结构化的格式提取信息,这种格式可以在他们的后续流程中轻松使用。
函数调用让开发者将 Mistral 端点与他们自己的一套工具相互连接,实现与内部代码、API 或数据库的更复杂交互。您将在Mistral的函数调用指南中了解更多。
函数调用和 JSON 格式仅适用于 mistral-small 和 mistral-large。Mistral将很快为所有端点添加格式化功能,同时启用更细粒度的格式定义。
从今天起,Mistral Large 可在 La Plateforme 和 Azure 上使用。Mistral Large 也在beta 助手演示器 le Chat 上公开。