Inflection-2.5发布：情商最高大模型、性能媲美GPT-4计算量仅为40%，App日活已破百万

342次阅读

没有评论

Inflection-2.5发布：情商最高大模型、性能媲美GPT-4计算量仅为40%，App日活已破百万

本周四，美国 AI 创业公司 Inflection AI 正式发布新一代大语言模型 Inflection-2.5。仅用 40% 计算量，实现与 GPT-4 相媲美性能。

与此同时，与 ChatGPT 对打的「最具人性化」聊天工具 Pi，也得到了新升级模型的加持。

Inflection-2.5发布：情商最高大模型、性能媲美GPT-4计算量仅为40%，App日活已破百万

现在，Pi 已经达到了百万日活，不仅拥有世界一流的智商，还具有独特的亲和力和好奇心。

Inflection-2.5发布：情商最高大模型、性能媲美GPT-4计算量仅为40%，App日活已破百万

若说实现真正的 AGI，一定是高情商和强推理能力融为一体，Pi 才是这个领域典范。

Inflection-2.5发布：情商最高大模型、性能媲美GPT-4计算量仅为40%，App日活已破百万

不到一周的时间，先是 Anthropic 凭借 Claude 3 夺下世界最强大模型铁座，再到 Inflection-2.5 的发布，直接叫板 GPT-4。

一个是由 7 位出走 OpenAI 的前员工成立初创（Anthropic），另一个是由前谷歌 DeepMind 联合创始人创办的公司，都向 GPT-4 发起了终极挑战。

Inflection-2.5发布：情商最高大模型、性能媲美GPT-4计算量仅为40%，App日活已破百万

再加上前段时间 Gemini 的挑衅，或许 GPT-4 独领风骚的时代真要终结了……

文章转载自「新智元」、「深思SenseAI」，Founder Park 有所增删。

Inflection-2.5发布：情商最高大模型、性能媲美GPT-4计算量仅为40%，App日活已破百万

01

Pi：为每个人打造一个有情感的个性 AI

2023 年 5 月，Inflection 发布了自家第一款产品 Pi——具有同理心、实用并且安全的个人 AI。

2023 年 11 月，他们又推出了一个全新的基础模型——Inflection-2，当时号称是全世界第二的 LLM。

Pi 具备非凡的情商（EQ）还远不够，Inflection 现在要为其加料——智力（IQ），推出全新升级版自研模型——Inflection-2.5。

新升级的 Inflection-2.5 不仅拥有强大的基础能力——可与 GPT-4、Gemini 等世界顶尖的 LLM 相媲美，而且还融入了标志性的个性化特点和独特的同理心微调。

值得一提的是，Inflection-2.5 在实现接近 GPT-4 的性能的同时，训练所需的计算量竟然只有 GPT-4 的 40%！

Inflection-2.5发布：情商最高大模型、性能媲美GPT-4计算量仅为40%，App日活已破百万

从今天起，所有 Pi 的用户都可以通过 pi.ai 网站、iOS、Android 或桌面应用程序体验到 Inflection-2.5。

此外，在这次升级中，Pi 还加入了世界级的「实时网络搜索功能」，确保用户能够获取到高质量的最新新闻和信息。

百万日活，用户粘性极高

目前，Inflection 每天有一百万活跃用户，每月有六百万活跃用户。

其中，每周有大约 60% 的用户，在与 Pi 交流后会在下周回来继续交流，用户粘性明显高于其他竞品。

这些用户与 Pi 的互动信息已经超过了四十亿条，平均对话时长为 33 分钟，而每天有十分之一的用户与 Pi 的对话时长超过一小时。

Inflection-2.5发布：情商最高大模型、性能媲美GPT-4计算量仅为40%，App日活已破百万

随着 Inflection-2.5 强大能力的加持，用户与 Pi 的对话话题比以往更加广泛：他们不仅讨论最新的时事，还能获取本地餐厅的推荐、备考生物学考试、草拟商业计划、进行编程、准备重要的对话，甚至仅仅是分享和讨论自己的兴趣爱好。

有网友称，「Pi 是我们全家一起探索话题最爱的工具。作为一名情感自由教练，当有人需要肯定、探索和反思时，我非常欣赏 Pi 的反应。强大的情感清晰度和处理能力」！

Inflection-2.5发布：情商最高大模型、性能媲美GPT-4计算量仅为40%，App日活已破百万

还有人认为，Pi 能够给出比 Claude 更有创意性的答案。

Inflection-2.5发布：情商最高大模型、性能媲美GPT-4计算量仅为40%，App日活已破百万

02

仅用 40% 的计算量，

Inflection-2.5 和 GPT-4 平起平坐

此前，Inflection-1 凭借着 4% 的训练 FLOPs，在多项以智力为核心的任务上，达到了 GPT-4 水平的 72%。

现在，全新升级的 Inflection-2.5，更是在 40% 训练 FLOPs 的情况下，性能超过了 GPT-4 的 94%。

可以看到，Inflection-2.5 在所有领域都有显著的提升，尤其是在科学、技术、工程和数学等 STEM 领域的进步最为突出。

Inflection-2.5发布：情商最高大模型、性能媲美GPT-4计算量仅为40%，App日活已破百万

在 MMLU 基准测试上，Inflection-2.5 相比于 Inflection-1 展现出了巨大的进步。

在另一个极端困难的专家级基准测试 GPQA Diamond 中，Inflection-2.5 的表现也非常出色。相比于 GPT-4，分差只有不到 2%。

Inflection-2.5发布：情商最高大模型、性能媲美GPT-4计算量仅为40%，App日活已破百万

接下来，是两项 STEM 领域的考试成绩：匈牙利数学考试和物理 GRE 考试——后者是一项物理学领域的研究生入学测试。

可以看到，在 maj@8 的评分标准下，Inflection-2.5 的表现达到了所有参考人群的第 85 百分位，在 maj@32 的评分标准下，其成绩几乎拿到了 95 百分位的高分。

当然，GPT-4 还是更胜一筹，在 maj@8 评分标准下就拿到了 97 百分位。

Inflection-2.5发布：情商最高大模型、性能媲美GPT-4计算量仅为40%，App日活已破百万

在 BIG-Bench-Hard 测试中，Inflection-2.5 比初代 Inflection-1 提升了超过 10%，距离 GPT-4 只有 0.9% 之遥。

值得一提，这是 BIG-Bench 测试集中，能对 LLM 构成较大挑战的一部分问题。

Inflection-2.5发布：情商最高大模型、性能媲美GPT-4计算量仅为40%，App日活已破百万

不过，在进行 MT-Bench 基准评测的过程中，团队发现，在涉及推理、数学和编程的类别中，竟然有将近 25% 的题目存在着参考答案错误或题目前提不合理的情况。

为了让其他模型也能进行更加客观的评测，团队不仅修正了这些问题，而且还发布了更新后的数据集版本。在修正之后的数据集上，Inflection-2.5 的表现会更加符合基于其他基准测试所预期的结果。

而这个结果也表明，准确和合理的题目设计对于评估模型的性能至关重要。

Inflection-2.5发布：情商最高大模型、性能媲美GPT-4计算量仅为40%，App日活已破百万

从下面的数据对比中可以看到，Inflection-2.5 在数学和编程方面的能力，相比起初代 Inflection-1 有了显著的提升。

但相比 GPT-4 来说，还有很长一段路要走——86.3 比 92.0；43.1 比 52.9。

Inflection-2.5发布：情商最高大模型、性能媲美GPT-4计算量仅为40%，App日活已破百万

在 MBPP+和 HumanEval+这两个测试编程性能的数据集上，Inflection-2.5 也比初代有着明显的提升。但同样的，与 GPT-4 还有不小的差距。

Inflection-2.5发布：情商最高大模型、性能媲美GPT-4计算量仅为40%，App日活已破百万

在涉及常识判断和科学知识的 HellaSwag 和 ARC-C 基准测试上，Inflection-2.5 都展示出了卓越的性能。

Inflection-2.5发布：情商最高大模型、性能媲美GPT-4计算量仅为40%，App日活已破百万

不过，由于网络信息检索的使用（注意，上述测试并未涉及网络检索）、特定的少样本提示方式以及其他一些实际应用时的差异，用户的实际体验可能会有细微的不同。

简单来说，Inflection-2.5 不仅继续保持了 Pi 那独一无二、友好的特性和高安全标准，它还在多个方面变得更加实用和有帮助。

不过，由于网络信息检索的使用（上述测试并未涉及网络检索）、特定的少样本提示方式以及其他一些实际应用时的差异，用户的实际体验可能会有细微的不同。

MT-Bench 问题修正

根据 Inflection 的调查，MT-Bench 在涉及逻辑推理、数学计算和编程技巧的问题中，大约有 25% 的案例中，原始答案存在错误或基于的假设有漏洞。让我们一起来看看两个真实的案例：

Inflection-2.5发布：情商最高大模型、性能媲美GPT-4计算量仅为40%，App日活已破百万

问题 #104：

David 有三个姐妹。她们每个人都有一个哥哥。请问 David 有多少个哥哥？

GPT-4 参考答案：David 只有一个哥哥。

修正的答案：David 自己就是他三个姐妹的哥哥，因此他没有其他哥哥。

Inflection-2.5发布：情商最高大模型、性能媲美GPT-4计算量仅为40%，App日活已破百万

问题 #111：

一个三角形的顶点分别位于点 (0, 0)，(-1, 1)，和 (3, 3)。求这个三角形的面积。

GPT-4 参考答案：

因此，面积计算结果为 0，暗示这三个点共线，实际上并未形成三角形。

修正的答案：面积是 3。

03

Inflection：DeepMind 联合创始人

打造的独角兽 AI 公司

2023 年 6 月，宣布一笔 13 亿美元融资后，Inflection 的估值达到 40 亿美元，仅次于 OpenAI 和 Anthropic（主推产品是 Claude），成为目前全球估值第三高的 AI 创业公司。

投资人阵容堪称豪华。包括微软、英伟达，以及 Bill Gates（微软创始人）、Greylock、Reid Hoffman、Eric Schmidt（Google 前 CEO）、Mike Schroepfer（Meta 前 CTO）、Demis Hassabis（Deepmind 联创）。

Infection AI 三位联合创始人分别是：

Deepmind 联合创始人 Mustafa Suleyman，创业前为 Google AI 产品和 AI 政策副总裁，领导了开创型的 LaMDA；
前 Deepmind 首席科学家 Karén Simonyan，他是 AlphaZero、AlphaFold 等项目的核心成员，深度学习经典网络 VGGNet 的设计者；
以及硅谷知名投资人、Linkedin 联合创始人、前 Paypal 高级副总裁 Reid Hoffman。

除了创始团队，Inflection AI 同样延续了美国 AI 公司在人才上的极简架构+天才策略，目前披露团队超过 34 人，技术团队吸纳了前 Google Brain 和 OpenAI 研究员 Rewon Child 等，产品团队招募了前 Google 和 DeepMind 高级产品经理 Joe Fenton、前 WhatsAPP 产品经理 Davide Bonapersona 等。

Inflection-2.5发布：情商最高大模型、性能媲美GPT-4计算量仅为40%，App日活已破百万

Mustafa Suleyman

2010 年，Suleyman 与 Demis Hassabis、ShaneLegg 一起创办了 DeepMind，随后在 2014 年被谷歌以 6.5 亿美金收购；随后在 2016 年，Suleyman 在英国皇家医学学会启动了 DeepMind Health 项目，为了提高国民医疗服务的效率以及提高一线医疗保健的质量。

后来，Suleyman 成为了 DeepMind 应用 AI 的负责人，其工作职责是将机器学习技术应用到谷歌产品和流程等广泛场景，到 2019 年，他的团队在谷歌大约启动了 50 个 AI 项目，并且将 AI 应用于谷歌数据中心，让其冷却成本降低了 30%。

2020 年，Suleyman 看到了「对话式」人机交互的趋势，并加入了谷歌的自然语言研究团队，开始研究早期版本的 LaMDA 模型，当时他的主要贡献，就是提供了一种能让 AI 尽量「基于事实」，而非「幻觉」给出回答的方法，这也是后来 Inflection 最看重的模型能力。

随后，LaMDA 引起了谷歌高管的注意，但是由于与当前谷歌商业模式产生冲突（用户可绕过搜索广告直接得到 AI 给出的最佳答案）以及对反垄断法律的担忧（绕过搜索中呈现的第三方创作者，仅由谷歌为用户直接提供答案），Suleyman 的个人愿景并没有得到持续的重视——所以，他选择辞职，创办了现在的 Inflection AI，一个「对话式的」，充满「人文主义」色彩的，具有同理心的 AI 伴侣。

参考资料：https://inflection.ai/inflection-2-5https://mp.weixin.qq.com/s/tArmzowu17vJcvlMzuWZrw

https://www.fastcompany.com/90959853/mustafa-suleyman-inflection-pi

如果你关注大模型领域，欢迎扫码加入我们的大模型交流群，来一起探讨大模型时代的共识和认知，跟上大模型时代的这股浪潮。
Inflection-2.5发布：情商最高大模型、性能媲美GPT-4计算量仅为40%，App日活已破百万
更多阅读