Inflection-2.5发布:情商最高大模型、性能媲美GPT-4计算量仅为40%,App日活已破百万

1,899次阅读
没有评论

Inflection-2.5发布:情商最高大模型、性能媲美GPT-4计算量仅为40%,App日活已破百万

本周四,美国 AI 创业公司 Inflection AI 正式发布新一代大语言模型 Inflection-2.5。仅用 40% 计算量,实现与 GPT-4 相媲美性能。

与此同时,与 ChatGPT 对打的「最具人性化」聊天工具 Pi,也得到了新升级模型的加持。

Inflection-2.5发布:情商最高大模型、性能媲美GPT-4计算量仅为40%,App日活已破百万

现在,Pi 已经达到了百万日活,不仅拥有世界一流的智商,还具有独特的亲和力和好奇心。

Inflection-2.5发布:情商最高大模型、性能媲美GPT-4计算量仅为40%,App日活已破百万

若说实现真正的 AGI,一定是高情商和强推理能力融为一体,Pi 才是这个领域典范。

Inflection-2.5发布:情商最高大模型、性能媲美GPT-4计算量仅为40%,App日活已破百万

不到一周的时间,先是 Anthropic 凭借 Claude 3 夺下世界最强大模型铁座,再到 Inflection-2.5 的发布,直接叫板 GPT-4。

一个是由 7 位出走 OpenAI 的前员工成立初创(Anthropic),另一个是由前谷歌 DeepMind 联合创始人创办的公司,都向 GPT-4 发起了终极挑战。

Inflection-2.5发布:情商最高大模型、性能媲美GPT-4计算量仅为40%,App日活已破百万

再加上前段时间 Gemini 的挑衅,或许 GPT-4 独领风骚的时代真要终结了……

文章转载自「新智元」、「深思SenseAI」,Founder Park 有所增删。

Inflection-2.5发布:情商最高大模型、性能媲美GPT-4计算量仅为40%,App日活已破百万

01

Pi:为每个人打造一个有情感的个性 AI

2023 年 5 月,Inflection 发布了自家第一款产品 Pi——具有同理心、实用并且安全的个人 AI。

2023 年 11 月,他们又推出了一个全新的基础模型——Inflection-2,当时号称是全世界第二的 LLM。

Pi 具备非凡的情商(EQ)还远不够,Inflection 现在要为其加料——智力(IQ),推出全新升级版自研模型——Inflection-2.5。

新升级的 Inflection-2.5 不仅拥有强大的基础能力——可与 GPT-4、Gemini 等世界顶尖的 LLM 相媲美,而且还融入了标志性的个性化特点和独特的同理心微调。

值得一提的是,Inflection-2.5 在实现接近 GPT-4 的性能的同时,训练所需的计算量竟然只有 GPT-4 的 40%!

Inflection-2.5发布:情商最高大模型、性能媲美GPT-4计算量仅为40%,App日活已破百万

从今天起,所有 Pi 的用户都可以通过 pi.ai 网站、iOS、Android 或桌面应用程序体验到 Inflection-2.5。

此外,在这次升级中,Pi 还加入了世界级的「实时网络搜索功能」,确保用户能够获取到高质量的最新新闻和信息。

百万日活,用户粘性极高

目前,Inflection 每天有一百万活跃用户,每月有六百万活跃用户。

其中,每周有大约 60% 的用户,在与 Pi 交流后会在下周回来继续交流,用户粘性明显高于其他竞品。

这些用户与 Pi 的互动信息已经超过了四十亿条,平均对话时长为 33 分钟,而每天有十分之一的用户与 Pi 的对话时长超过一小时。

Inflection-2.5发布:情商最高大模型、性能媲美GPT-4计算量仅为40%,App日活已破百万

随着 Inflection-2.5 强大能力的加持,用户与 Pi 的对话话题比以往更加广泛:他们不仅讨论最新的时事,还能获取本地餐厅的推荐、备考生物学考试、草拟商业计划、进行编程、准备重要的对话,甚至仅仅是分享和讨论自己的兴趣爱好。

有网友称,「Pi 是我们全家一起探索话题最爱的工具。作为一名情感自由教练,当有人需要肯定、探索和反思时,我非常欣赏 Pi 的反应。强大的情感清晰度和处理能力」!

Inflection-2.5发布:情商最高大模型、性能媲美GPT-4计算量仅为40%,App日活已破百万

还有人认为,Pi 能够给出比 Claude 更有创意性的答案。

Inflection-2.5发布:情商最高大模型、性能媲美GPT-4计算量仅为40%,App日活已破百万

02

仅用 40% 的计算量,

Inflection-2.5 和 GPT-4 平起平坐

此前,Inflection-1 凭借着 4% 的训练 FLOPs,在多项以智力为核心的任务上,达到了 GPT-4 水平的 72%。

现在,全新升级的 Inflection-2.5,更是在 40% 训练 FLOPs 的情况下,性能超过了 GPT-4 的 94%。

可以看到,Inflection-2.5 在所有领域都有显著的提升,尤其是在科学技术、工程和数学等 STEM 领域的进步最为突出。

Inflection-2.5发布:情商最高大模型、性能媲美GPT-4计算量仅为40%,App日活已破百万

在 MMLU 基准测试上,Inflection-2.5 相比于 Inflection-1 展现出了巨大的进步。

在另一个极端困难的专家级基准测试 GPQA Diamond 中,Inflection-2.5 的表现也非常出色。相比于 GPT-4,分差只有不到 2%。

Inflection-2.5发布:情商最高大模型、性能媲美GPT-4计算量仅为40%,App日活已破百万

接下来,是两项 STEM 领域的考试成绩:匈牙利数学考试和物理 GRE 考试——后者是一项物理学领域的研究生入学测试。

可以看到,在 maj@8 的评分标准下,Inflection-2.5 的表现达到了所有参考人群的第 85 百分位,在 maj@32 的评分标准下,其成绩几乎拿到了 95 百分位的高分。

当然,GPT-4 还是更胜一筹,在 maj@8 评分标准下就拿到了 97 百分位。

Inflection-2.5发布:情商最高大模型、性能媲美GPT-4计算量仅为40%,App日活已破百万

在 BIG-Bench-Hard 测试中,Inflection-2.5 比初代 Inflection-1 提升了超过 10%,距离 GPT-4 只有 0.9% 之遥。

值得一提,这是 BIG-Bench 测试集中,能对 LLM 构成较大挑战的一部分问题。

Inflection-2.5发布:情商最高大模型、性能媲美GPT-4计算量仅为40%,App日活已破百万

不过,在进行 MT-Bench 基准评测的过程中,团队发现,在涉及推理、数学和编程的类别中,竟然有将近 25% 的题目存在着参考答案错误或题目前提不合理的情况。

为了让其他模型也能进行更加客观的评测,团队不仅修正了这些问题,而且还发布了更新后的数据集版本。在修正之后的数据集上,Inflection-2.5 的表现会更加符合基于其他基准测试所预期的结果。

而这个结果也表明,准确和合理的题目设计对于评估模型的性能至关重要。

Inflection-2.5发布:情商最高大模型、性能媲美GPT-4计算量仅为40%,App日活已破百万

从下面的数据对比中可以看到,Inflection-2.5 在数学和编程方面的能力,相比起初代 Inflection-1 有了显著的提升。

但相比 GPT-4 来说,还有很长一段路要走——86.3 比 92.0;43.1 比 52.9。

Inflection-2.5发布:情商最高大模型、性能媲美GPT-4计算量仅为40%,App日活已破百万

在 MBPP+和 HumanEval+这两个测试编程性能的数据集上,Inflection-2.5 也比初代有着明显的提升。但同样的,与 GPT-4 还有不小的差距。

Inflection-2.5发布:情商最高大模型、性能媲美GPT-4计算量仅为40%,App日活已破百万

在涉及常识判断和科学知识的 HellaSwag 和 ARC-C 基准测试上,Inflection-2.5 都展示出了卓越的性能。

Inflection-2.5发布:情商最高大模型、性能媲美GPT-4计算量仅为40%,App日活已破百万

不过,由于网络信息检索的使用(注意,上述测试并未涉及网络检索)、特定的少样本提示方式以及其他一些实际应用时的差异,用户的实际体验可能会有细微的不同。

简单来说,Inflection-2.5 不仅继续保持了 Pi 那独一无二、友好的特性和高安全标准,它还在多个方面变得更加实用和有帮助。

不过,由于网络信息检索的使用(上述测试并未涉及网络检索)、特定的少样本提示方式以及其他一些实际应用时的差异,用户的实际体验可能会有细微的不同。

MT-Bench 问题修正

根据 Inflection 的调查,MT-Bench 在涉及逻辑推理、数学计算和编程技巧的问题中,大约有 25% 的案例中,原始答案存在错误或基于的假设有漏洞。让我们一起来看看两个真实的案例:

Inflection-2.5发布:情商最高大模型、性能媲美GPT-4计算量仅为40%,App日活已破百万

问题 #104:

David 有三个姐妹。她们每个人都有一个哥哥。请问 David 有多少个哥哥?

GPT-4 参考答案:David 只有一个哥哥。

修正的答案:David 自己就是他三个姐妹的哥哥,因此他没有其他哥哥。

Inflection-2.5发布:情商最高大模型、性能媲美GPT-4计算量仅为40%,App日活已破百万

问题 #111:

一个三角形的顶点分别位于点 (0, 0),(-1, 1),和 (3, 3)。求这个三角形的面积。

GPT-4 参考答案

要计算这个三角形的面积,我们可以应用用于坐标点 A(x1, y1),B(x2, y2),和 C(x3, y3) 的三角形面积公式:Area = (1/2) * |(x1(y2 – y3) + x2(y3 – y1) + x3(y1 – y2))|在这个例子中,坐标分别是 A(0, 0),B(-1, 1),和 C(3, 3)。将这些值代入公式计算,我们得到:Area = (1/2) * |(0(1 – 3) + (-1)(3 – 0) + 3(0 – 1))|Area = (1/2) * |(-0 + 3 – 3)|Area = (1/2) * |0|

因此,面积计算结果为 0,暗示这三个点共线,实际上并未形成三角形。

修正的答案:面积是 3。


03

Inflection:DeepMind 联合创始人

打造的独角兽 AI 公司

2023 年 6 月,宣布一笔 13 亿美元融资后,Inflection 的估值达到 40 亿美元,仅次于 OpenAI 和 Anthropic(主推产品是 Claude),成为目前全球估值第三高的 AI 创业公司。

投资人阵容堪称豪华。包括微软、英伟达,以及 Bill Gates(微软创始人)、Greylock、Reid Hoffman、Eric Schmidt(Google 前 CEO)、Mike Schroepfer(Meta 前 CTO)、Demis Hassabis(Deepmind 联创)。

Infection AI 三位联合创始人分别是:

  • Deepmind 联合创始人 Mustafa Suleyman,创业前为 Google AI 产品和 AI 政策副总裁,领导了开创型的 LaMDA;

  • 前 Deepmind 首席科学家 Karén Simonyan,他是 AlphaZero、AlphaFold 等项目的核心成员,深度学习经典网络 VGGNet 的设计者;

  • 以及硅谷知名投资人、Linkedin 联合创始人、前 Paypal 高级副总裁 Reid Hoffman。

除了创始团队,Inflection AI 同样延续了美国 AI 公司在人才上的极简架构+天才策略,目前披露团队超过 34 人,技术团队吸纳了前 Google Brain 和 OpenAI 研究员 Rewon Child 等,产品团队招募了前 Google 和 DeepMind 高级产品经理 Joe Fenton、前 WhatsAPP 产品经理 Davide Bonapersona 等。

Inflection-2.5发布:情商最高大模型、性能媲美GPT-4计算量仅为40%,App日活已破百万

Mustafa Suleyman

2010 年,Suleyman 与 Demis Hassabis、ShaneLegg 一起创办了 DeepMind,随后在 2014 年被谷歌以 6.5 亿美金收购;随后在 2016 年,Suleyman 在英国皇家医学学会启动了 DeepMind Health 项目,为了提高国民医疗服务的效率以及提高一线医疗保健的质量。

后来,Suleyman 成为了 DeepMind 应用 AI 的负责人,其工作职责是将机器学习技术应用到谷歌产品和流程等广泛场景,到 2019 年,他的团队在谷歌大约启动了 50 个 AI 项目,并且将 AI 应用于谷歌数据中心,让其冷却成本降低了 30%。

2020 年,Suleyman 看到了「对话式」人机交互的趋势,并加入了谷歌的自然语言研究团队,开始研究早期版本的 LaMDA 模型,当时他的主要贡献,就是提供了一种能让 AI 尽量「基于事实」,而非「幻觉」给出回答的方法,这也是后来 Inflection 最看重的模型能力。

随后,LaMDA 引起了谷歌高管的注意,但是由于与当前谷歌商业模式产生冲突(用户可绕过搜索广告直接得到 AI 给出的最佳答案)以及对反垄断法律的担忧(绕过搜索中呈现的第三方创作者,仅由谷歌为用户直接提供答案),Suleyman 的个人愿景并没有得到持续的重视——所以,他选择辞职,创办了现在的 Inflection AI,一个「对话式的」,充满「人文主义」色彩的,具有同理心的 AI 伴侣。


参考资料:https://inflection.ai/inflection-2-5https://mp.weixin.qq.com/s/tArmzowu17vJcvlMzuWZrw

https://www.fastcompany.com/90959853/mustafa-suleyman-inflection-pi

如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。
Inflection-2.5发布:情商最高大模型、性能媲美GPT-4计算量仅为40%,App日活已破百万
更多阅读

2024 年,中国的投资人们如何投 AI?

世界最强大模型易主!Anthropic发布Claude 3系列模型,幻觉问题更少了

具身智能要来了!OpenAI、英伟达投资,机器人公司Figure AI估值26亿成新独角兽

DeepMind CEO Demis Hassabis 专访:2030年有望达到AGI、AI会带来革命性的全民普惠

2023年,被用户放弃了的 Top AI 产品有哪些?

转载原创文章请添加微信:geekparker

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 3 月
 123
45678910
11121314151617
18192021222324
25262728293031
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1

商汤Seko2.0重磅发布,合作短剧登顶抖音AI短剧榜No.1 十三 2025-12-15 14:13:14 ...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE

OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE 闻乐 2025-12-14 14:2...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
交大高金朱宁:经济学家视角下AI时代的范式思维转变 | MEET2026

交大高金朱宁:经济学家视角下AI时代的范式思维转变 | MEET2026

交大高金朱宁:经济学家视角下AI时代的范式思维转变 | MEET2026 西风 2025-12-13 12:5...
半世纪难题48小时破解!陶哲轩组队把AI数学玩成打怪游戏了

半世纪难题48小时破解!陶哲轩组队把AI数学玩成打怪游戏了

半世纪难题48小时破解!陶哲轩组队把AI数学玩成打怪游戏了 鹭羽 2025-12-13 22:43:25 来源...
美国视频生成老炮儿,入局世界模型

美国视频生成老炮儿,入局世界模型

美国视频生成老炮儿,入局世界模型 鹭羽 2025-12-13 22:41:00 来源:量子位 三连发:真实场景...
面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25

面向「空天具身智能」,北航团队提出星座规划新基准丨NeurIPS’25 鹭羽 2025-12-13 22:37...
为Token付费是一件很愚蠢的事情,用户应该为智能付费丨RockAI刘凡平@MEET2026

为Token付费是一件很愚蠢的事情,用户应该为智能付费丨RockAI刘凡平@MEET2026

为Token付费是一件很愚蠢的事情,用户应该为智能付费丨RockAI刘凡平@MEET2026 西风 2025-...