本周四,美国 AI 创业公司 Inflection AI 正式发布新一代大语言模型 Inflection-2.5。仅用 40% 计算量,实现与 GPT-4 相媲美性能。
与此同时,与 ChatGPT 对打的「最具人性化」聊天工具 Pi,也得到了新升级模型的加持。
现在,Pi 已经达到了百万日活,不仅拥有世界一流的智商,还具有独特的亲和力和好奇心。
若说实现真正的 AGI,一定是高情商和强推理能力融为一体,Pi 才是这个领域典范。
不到一周的时间,先是 Anthropic 凭借 Claude 3 夺下世界最强大模型铁座,再到 Inflection-2.5 的发布,直接叫板 GPT-4。
一个是由 7 位出走 OpenAI 的前员工成立初创(Anthropic),另一个是由前谷歌 DeepMind 联合创始人创办的公司,都向 GPT-4 发起了终极挑战。
再加上前段时间 Gemini 的挑衅,或许 GPT-4 独领风骚的时代真要终结了……
文章转载自「新智元」、「深思SenseAI」,Founder Park 有所增删。
01
Pi:为每个人打造一个有情感的个性 AI
2023 年 5 月,Inflection 发布了自家第一款产品 Pi——具有同理心、实用并且安全的个人 AI。
2023 年 11 月,他们又推出了一个全新的基础模型——Inflection-2,当时号称是全世界第二的 LLM。
Pi 具备非凡的情商(EQ)还远不够,Inflection 现在要为其加料——智力(IQ),推出全新升级版自研模型——Inflection-2.5。
新升级的 Inflection-2.5 不仅拥有强大的基础能力——可与 GPT-4、Gemini 等世界顶尖的 LLM 相媲美,而且还融入了标志性的个性化特点和独特的同理心微调。
值得一提的是,Inflection-2.5 在实现接近 GPT-4 的性能的同时,训练所需的计算量竟然只有 GPT-4 的 40%!
从今天起,所有 Pi 的用户都可以通过 pi.ai 网站、iOS、Android 或桌面应用程序体验到 Inflection-2.5。
此外,在这次升级中,Pi 还加入了世界级的「实时网络搜索功能」,确保用户能够获取到高质量的最新新闻和信息。
百万日活,用户粘性极高
目前,Inflection 每天有一百万活跃用户,每月有六百万活跃用户。
其中,每周有大约 60% 的用户,在与 Pi 交流后会在下周回来继续交流,用户粘性明显高于其他竞品。
这些用户与 Pi 的互动信息已经超过了四十亿条,平均对话时长为 33 分钟,而每天有十分之一的用户与 Pi 的对话时长超过一小时。
随着 Inflection-2.5 强大能力的加持,用户与 Pi 的对话话题比以往更加广泛:他们不仅讨论最新的时事,还能获取本地餐厅的推荐、备考生物学考试、草拟商业计划、进行编程、准备重要的对话,甚至仅仅是分享和讨论自己的兴趣爱好。
有网友称,「Pi 是我们全家一起探索话题最爱的工具。作为一名情感自由教练,当有人需要肯定、探索和反思时,我非常欣赏 Pi 的反应。强大的情感清晰度和处理能力」!
还有人认为,Pi 能够给出比 Claude 更有创意性的答案。
02
仅用 40% 的计算量,
Inflection-2.5 和 GPT-4 平起平坐
此前,Inflection-1 凭借着 4% 的训练 FLOPs,在多项以智力为核心的任务上,达到了 GPT-4 水平的 72%。
现在,全新升级的 Inflection-2.5,更是在 40% 训练 FLOPs 的情况下,性能超过了 GPT-4 的 94%。
可以看到,Inflection-2.5 在所有领域都有显著的提升,尤其是在科学、技术、工程和数学等 STEM 领域的进步最为突出。
在 MMLU 基准测试上,Inflection-2.5 相比于 Inflection-1 展现出了巨大的进步。
在另一个极端困难的专家级基准测试 GPQA Diamond 中,Inflection-2.5 的表现也非常出色。相比于 GPT-4,分差只有不到 2%。
接下来,是两项 STEM 领域的考试成绩:匈牙利数学考试和物理 GRE 考试——后者是一项物理学领域的研究生入学测试。
可以看到,在 maj@8 的评分标准下,Inflection-2.5 的表现达到了所有参考人群的第 85 百分位,在 maj@32 的评分标准下,其成绩几乎拿到了 95 百分位的高分。
当然,GPT-4 还是更胜一筹,在 maj@8 评分标准下就拿到了 97 百分位。
在 BIG-Bench-Hard 测试中,Inflection-2.5 比初代 Inflection-1 提升了超过 10%,距离 GPT-4 只有 0.9% 之遥。
值得一提,这是 BIG-Bench 测试集中,能对 LLM 构成较大挑战的一部分问题。
不过,在进行 MT-Bench 基准评测的过程中,团队发现,在涉及推理、数学和编程的类别中,竟然有将近 25% 的题目存在着参考答案错误或题目前提不合理的情况。
为了让其他模型也能进行更加客观的评测,团队不仅修正了这些问题,而且还发布了更新后的数据集版本。在修正之后的数据集上,Inflection-2.5 的表现会更加符合基于其他基准测试所预期的结果。
而这个结果也表明,准确和合理的题目设计对于评估模型的性能至关重要。
从下面的数据对比中可以看到,Inflection-2.5 在数学和编程方面的能力,相比起初代 Inflection-1 有了显著的提升。
但相比 GPT-4 来说,还有很长一段路要走——86.3 比 92.0;43.1 比 52.9。
在 MBPP+和 HumanEval+这两个测试编程性能的数据集上,Inflection-2.5 也比初代有着明显的提升。但同样的,与 GPT-4 还有不小的差距。
在涉及常识判断和科学知识的 HellaSwag 和 ARC-C 基准测试上,Inflection-2.5 都展示出了卓越的性能。
不过,由于网络信息检索的使用(注意,上述测试并未涉及网络检索)、特定的少样本提示方式以及其他一些实际应用时的差异,用户的实际体验可能会有细微的不同。
简单来说,Inflection-2.5 不仅继续保持了 Pi 那独一无二、友好的特性和高安全标准,它还在多个方面变得更加实用和有帮助。
不过,由于网络信息检索的使用(上述测试并未涉及网络检索)、特定的少样本提示方式以及其他一些实际应用时的差异,用户的实际体验可能会有细微的不同。
MT-Bench 问题修正
根据 Inflection 的调查,MT-Bench 在涉及逻辑推理、数学计算和编程技巧的问题中,大约有 25% 的案例中,原始答案存在错误或基于的假设有漏洞。让我们一起来看看两个真实的案例:
问题 #104:
David 有三个姐妹。她们每个人都有一个哥哥。请问 David 有多少个哥哥?
GPT-4 参考答案:David 只有一个哥哥。
修正的答案:David 自己就是他三个姐妹的哥哥,因此他没有其他哥哥。
问题 #111:
一个三角形的顶点分别位于点 (0, 0),(-1, 1),和 (3, 3)。求这个三角形的面积。
GPT-4 参考答案:
要计算这个三角形的面积,我们可以应用用于坐标点 A(x1, y1),B(x2, y2),和 C(x3, y3) 的三角形面积公式:Area = (1/2) * |(x1(y2 – y3) + x2(y3 – y1) + x3(y1 – y2))|在这个例子中,坐标分别是 A(0, 0),B(-1, 1),和 C(3, 3)。将这些值代入公式计算,我们得到:Area = (1/2) * |(0(1 – 3) + (-1)(3 – 0) + 3(0 – 1))|Area = (1/2) * |(-0 + 3 – 3)|Area = (1/2) * |0|
因此,面积计算结果为 0,暗示这三个点共线,实际上并未形成三角形。
修正的答案:面积是 3。
03
Inflection:DeepMind 联合创始人
打造的独角兽 AI 公司
2023 年 6 月,宣布一笔 13 亿美元融资后,Inflection 的估值达到 40 亿美元,仅次于 OpenAI 和 Anthropic(主推产品是 Claude),成为目前全球估值第三高的 AI 创业公司。
投资人阵容堪称豪华。包括微软、英伟达,以及 Bill Gates(微软创始人)、Greylock、Reid Hoffman、Eric Schmidt(Google 前 CEO)、Mike Schroepfer(Meta 前 CTO)、Demis Hassabis(Deepmind 联创)。
Infection AI 三位联合创始人分别是:
-
Deepmind 联合创始人 Mustafa Suleyman,创业前为 Google AI 产品和 AI 政策副总裁,领导了开创型的 LaMDA;
-
前 Deepmind 首席科学家 Karén Simonyan,他是 AlphaZero、AlphaFold 等项目的核心成员,深度学习经典网络 VGGNet 的设计者;
-
以及硅谷知名投资人、Linkedin 联合创始人、前 Paypal 高级副总裁 Reid Hoffman。
除了创始团队,Inflection AI 同样延续了美国 AI 公司在人才上的极简架构+天才策略,目前披露团队超过 34 人,技术团队吸纳了前 Google Brain 和 OpenAI 研究员 Rewon Child 等,产品团队招募了前 Google 和 DeepMind 高级产品经理 Joe Fenton、前 WhatsAPP 产品经理 Davide Bonapersona 等。
Mustafa Suleyman
2010 年,Suleyman 与 Demis Hassabis、ShaneLegg 一起创办了 DeepMind,随后在 2014 年被谷歌以 6.5 亿美金收购;随后在 2016 年,Suleyman 在英国皇家医学学会启动了 DeepMind Health 项目,为了提高国民医疗服务的效率以及提高一线医疗保健的质量。
后来,Suleyman 成为了 DeepMind 应用 AI 的负责人,其工作职责是将机器学习技术应用到谷歌产品和流程等广泛场景,到 2019 年,他的团队在谷歌大约启动了 50 个 AI 项目,并且将 AI 应用于谷歌数据中心,让其冷却成本降低了 30%。
2020 年,Suleyman 看到了「对话式」人机交互的趋势,并加入了谷歌的自然语言研究团队,开始研究早期版本的 LaMDA 模型,当时他的主要贡献,就是提供了一种能让 AI 尽量「基于事实」,而非「幻觉」给出回答的方法,这也是后来 Inflection 最看重的模型能力。
随后,LaMDA 引起了谷歌高管的注意,但是由于与当前谷歌商业模式产生冲突(用户可绕过搜索广告直接得到 AI 给出的最佳答案)以及对反垄断法律的担忧(绕过搜索中呈现的第三方创作者,仅由谷歌为用户直接提供答案),Suleyman 的个人愿景并没有得到持续的重视——所以,他选择辞职,创办了现在的 Inflection AI,一个「对话式的」,充满「人文主义」色彩的,具有同理心的 AI 伴侣。
参考资料:https://inflection.ai/inflection-2-5https://mp.weixin.qq.com/s/tArmzowu17vJcvlMzuWZrw
https://www.fastcompany.com/90959853/mustafa-suleyman-inflection-pi
如果你关注大模型领域,欢迎扫码加入我们的大模型交流群,来一起探讨大模型时代的共识和认知,跟上大模型时代的这股浪潮。
更多阅读
世界最强大模型易主!Anthropic发布Claude 3系列模型,幻觉问题更少了
具身智能要来了!OpenAI、英伟达投资,机器人公司Figure AI估值26亿成新独角兽
DeepMind CEO Demis Hassabis 专访:2030年有望达到AGI、AI会带来革命性的全民普惠
转载原创文章请添加微信:geekparker