一手实测！文心X1/4.5 Turbo推理和多模态双双变强，还把模型成本降了6成？！

663次阅读

没有评论

一手实测！文心X1/4.5 Turbo推理和多模态双双变强，还把模型成本降了6成？！

一水
2025-04-25
17:58:23

来源：量子位

背后核心技术也公开了

“周周有发布，天天有更新。”

这是百度创始人李彦宏最新对大模型竞速的感慨，但……卷王实际就是百度自己，因为就这一个多月以来，百度已经连发4款模型了。

就在刚刚，在Create 2025百度AI 开发者大会上，李彦宏又一口气官宣了两款新模型：分别是主打深度思考和多模态的X1 Turbo/4.5 Turbo。

而且发布即上线，普通用户现在都能免费体验。

一手实测！文心X1/4.5 Turbo推理和多模态双双变强，还把模型成本降了6成？！

据介绍，它们是百度在3月发布的旗舰模型X1、4.5的升级版，推理和多模态能力双双更跃Level。

比如在挑战“史上最难高考数学题之一”时，新模型是为数不多能给出正确答案的选手（正确答案为145）：

一个冷知识，2003年数学全国卷被誉为“史上最难高考卷”，而这道题还是里面的压轴大题，难度可想而知。

甚至，至今还能看到一众自称03级的网友集体“诉苦”：

再比如面对一段让人眼花缭乱的视频，新模型竟成功猜对了小球的位置。

正确答案是3号杯子，话说大家最终猜出来了吗？(doge）

根据官方测评结果，深度思考模型文心X1 Turbo（深蓝），整体效果领先DeepSeek R1、V3最新版。

文心4.5 Turbo（红色），多模态能力优于GPT 4o，文本能力与DeepSeek V3最新版持平，优于GPT 4.5。

目前，两款新模型均在文心一言官网开放，开发者在百度智能云千帆大模型平台，也可直接调用API。

另外，最关键的还是成本的下降！

文心4.5 Turbo输入0.8元/百万tokens，输出3.2元/百万tokens；文心X1 Turbo输入1元/百万tokens，输出4元/百万tokens。

以上价格，前者仅为DeepSeek V3的40%，后者仅为DeepSeek R1的1/4；同时相比一个月前的X1/4.5，价格均下降一半及以上。

大模型能力在进化，成本在下降，应用创新的大爆发将势不可挡。

只不过，咱还是先从一些具体能力上，看看百度最新最强大模型文心X1 Turbo/4.5 Turbo，究竟是不是像跑分展现的那么强？

老规矩，上一手实测～～

实测之后，还是太全面了！

首先来看主打深度思考的文心X1 Turbo模型。

据介绍，它基于文心4.5 Turbo，在性能提升的同时，具备更先进的思维链，尤其擅长推理和工具调用。

文心大模型X1 Turbo

一上来，我们先拿一道经典逻辑陷阱题热热身：

一根5.5米的竹竿可以通过高4米宽3米的门吗？

对于这样一个看似简单的问题，目前市面上绝大多数的模型反应be like：

而文心X1 Turbo经过一番严谨论证，第一次就得出了正确答案（通过调整竹竿的倾斜角度，可以通过）：

看来这种问题已经难不倒它了，接下来难度升级。

直接一步到位，扔给它一道某地高中物理模考卷压轴题，还是只上传图片的那种：

可以看到，对于这种涉及专业领域的高难度推理题，X1 Turbo依旧思路清晰。

先是自主调用“图片理解”工具识别出题目与火箭发射有关，然后上手一步步解题，最终给出了正确答案。

值得注意的是，尽管考查的是X1 Turbo的逻辑推理能力，但我们已经提前发现它的一大特色——

与其他推理模型相比，文心X1 Turbo能够灵活调用各种工具。

官网显示，文心X1 Turbo默认开启代码解释器、文档阅读、图片理解、图片生成等诸多工具，一旦意识到答案涉及代码、表格、图片等多模态内容，就会自动调用这些工具。

比如在日常生活中，我们随手将一张美食照分享给文心X1 Turbo，让它帮忙反向解析详细制作过程。

而且为了便于收藏，我们还要求它最终直接生成一份PDF文件：

结果，X1 Turbo分别调用图片理解和代码解释器工具，生成了一份可直接下载、内容完整的PDF制作工序文件。

看来挑战还是太简单了，好好好，接下来我们干脆玩把大的。

让文心X1 Turbo帮我们规划一个五一去北京游玩的行程，而且提了一大堆要求，不能太“特种兵”，住宿、交通、门票等等都要考虑到，结果用表格呈现……主打一个全面考察工具调用。

话不多说，来感受一下最终效果：

不仅贴心标注了“五一行程——8点自然醒版”（doge），而且表格中每一天的安排都非常清晰，甚至特意标出了需要提前预约的景点和预约渠道。

再仔细一看，同一天安排的景点的位置都比较靠近，属于合理范畴。

此外，我们还发现文心X1 Turbo支持继续对话生成，能在前面的行程规划上，接着为每个景点生成配图。

最后顺便一提，我们在测试文心X1 Turbo的推理和工具调用能力的过程中，还发现它在创意写作方面有点意思。

恰逢五一假期临近，我们让它根据一张“西湖人山人海图”，仿照《岳阳楼记》的文风写一篇游记。

对比一下《岳阳楼记》原文，是不是有内味儿了~

庆历四年春，滕子京谪守巴陵郡。越明年，政通人和，百废具兴，乃重修岳阳楼，增其旧制，刻唐贤今人诗赋于其上，属予作文以记之……

其次来看主打多模态的文心4.5 Turbo模型。

据介绍，它源自文心4.5，是效果更好、成本更低的多模态大模型。

文心大模型4.5 Turbo

实测下来发现，相比单项推理能力突出的文心X1 Turbo，它更像是一个主打综合实力的“六边形战士”。

切换模型后，底部输入框的文档、图片、视频、音频等多模态功能全部“点亮”：

文本能力就不用多说了，我们直接上传一张经典梗图，考查其视觉理解能力，结果也是秒秒钟get~

再来个实用的，让4.5 Turbo设计一些包含故宫博物院元素的冰箱贴文创。

相同提示词下，通过对比文心4.5和4.5 Turbo，可以看到后者的生成效果确实更好、更精致了。

最后，文心4.5 Turbo也能理解音视频素材。

一方面可以直接和它语音对话，亲测用四川方言也能实现无障碍交流：

另一方面还能综合分析视频中的场景、声音、人物等等，目前单个视频最大支持20MB。

小结一下，百度此次推出的文心大模型X1/4.5 Turbo，实测下来在推理能力和多模态能力上确实有一定程度升级。

那么接下来的问题是：背后依靠了哪些核心技术？

挖一挖背后的技术

在思考路径中融合工具调用

首先，作为能够自主运用工具的深度思考模型，文心X1 Turbo背后的关键技术包括：

其一，突破了仅基于思维链优化的范式，在思考路径中结合工具调用，构建了融合思考和行动的复合思维链，模型解决问题的能力得到显著提升。

其二，结合多元统一的奖励机制，实现了长距离思维和行动链的端到端优化，显著提升了跨领域解决问题的能力。

一般而言，传统的单一奖励机制往往只能从一个角度评估模型的性能，这可能导致模型“顾此失彼”，比如过于关注语法，可能就会忽略语义的连贯性。

而多元统一奖励机制是从多个维度全面评估模型的性能，这种综合性的反馈机制能够帮助模型在多个方面同时优化，从而提升整体实力。

采用不同模态混合训练

其次，为了提升文心4.5和4.5 Turbo的多模态能力，一大关键就是采用了不同模态（文本、图像和视频）的混合训练。

针对不同模态数据在结构、规模、知识密度上的差异，主要应用了如下技术：

多模态异构专家建模
自适应分辨率视觉编码
时空重排列的三维旋转位置编码
自适应模态感知损失计算

最终，模型的学习效率提高近2倍，多模态理解效果提升超过30%。

而且为了进一步提升模型的综合实力，他们在后训练阶段也进行了优化。

研制了自反馈增强的技术框架，基于大模型自身的生成和评估反馈能力，实现了“训练-生成-反馈-增强”的模型迭代闭环。

这不仅解决了大模型对齐过程中数据生产难度大、成本高、速度慢等问题，而且显著降低了模型幻觉，提升了模型理解和处理复杂任务的效果。

此外在训练阶段，他们还研制了融合偏好学习的强化学习技术，通过多元统一奖励机制，提升了对结果质量判别的准确率，通过离线偏好学习和在线强化学习统一优化，进一步提升了数据利用效率和训练稳定性，并增强了模型对高质量结果的感知。

正是因为受益于偏好信号与奖励信号的融合运用，模型的理解、生成、逻辑推理和记忆等能力才得以全面提升。

数据的合理挖掘及运用

当然，能够训练出高质量模型，还离不开对数据的合理挖掘及运用。

在这方面，他们打造了“数据挖掘与合成 – 数据分析与评估 – 模型能力反馈”的数据建设闭环。

主要体现在两点：

一是针对专业深度知识及领域过程知识的数据稀缺问题，研制了原理驱动、过程评估与结果校验的数据合成技术、知识点驱动的大规模稀缺数据挖掘技术，提升数据的知识密度和覆盖面。

二是针对不同模态数据割裂、跨模态语义关联难度大等问题，提出了融合语义对齐的多模态平行数据构建、融合视觉知识的描述生成等技术，大幅提升不同模态数据的对齐精度和深度语义关联，增强多模态理解能力。

最终实现了——既能源源不断地生产知识密度高、数据多样、领域覆盖广的大规模数据，还能将数据建设流程轻松迁移到全新的数据类型。

训练推理中采用联合优化

除了上面这些，技术团队还进行了模型的算力优化。

训练方面，多模态统一的掩码注意力加速，利用飞桨已有的块状掩码注意力加速技术，显著降低不同模态混合计算注意力时的掩码构建和计算开销，大幅提升训练性能。

推理方面，多模态流式分块预填充机制，减少首token耗时，同时减少推理计算的显存峰值，提升推理批次大小，提升吞吐性能。

而且值得一提的是，开发者还能利用百度飞桨框架3.0，“像写单机代码一样写分布式代码”，借助其动静统一自动并行技术，开发者无需感知复杂的通信和调度逻辑，即可实现大模型的开发。

目前，文心飞桨的开发者数量已经超过了2185万，服务超过67万家企业，创建的模型达到110万。

未来，随着百度进一步走向开源，开发者也能通过该框架实现更多开源模型的高性能推理了。

把生产力成本打下来了

技术上所具备的核心优势，最终也让百度把模型价格狠狠打下来了。

还在一个月前，百度发布的文心大模型X1和4.5，就因为低于ChatGPT和DeepSeek的价格出圈。

而现在发布的文心X1 Turbo/4.5 Turbo，模型性能升级的同时，价格却进一步降低了。

文心大模型X1 Turbo API，输入价格1元/百万tokens，输出价格4元/百万tokens，仅为DeepSeek R1调用价格的1/4，而且相比文心大模型X1，价格直接腰斩。

文心大模型4.5 Turbo API，输入价格0.8元/百万tokens，输出价格3.2元/百万tokens，仅为DeepSeek V3调用价格的40%，而且相比文心大模型4.5，价格更是下降了80%。

而且不止卷价格，一旦梳理百度目前采取的一系列动作，我们就能看到一个核心关键词——生产力。

一方面，百度作为国内最早入局大模型的头部玩家之一，始终坚决投入下一代基础模型。

模型升级的方向，目前主要包括推理、多模态、工具调用等等，这些功能均围绕“生产力”展开，主要是为了满足普通人的日常工作生活需要。

带来的结果是，越升级基础模型，我们普通用户越能免费薅到更强大的生产力工具。

另一方面，他们还为开发者提供了全方位支持。以文心大模型为例，目前已经形成了从模型到工具平台的完整体系，包括文心4.5、X1等旗舰模型及其Turbo升级版、文图生成模型、场景模型和轻量模型、文心一言和智能体，以及赋能开发者的数据生产、后训练、推理部署和场景化工具等。

再加上模型价格一降再降，开发者搞应用的门槛也更低了，这将推动AI应用进一步爆发，进而有望提升整个社会的生产力。

这或许也是百度这届AI开发者大会，主题“模型的世界，应用的天下”的关键原因，模型已经遍地都是、触手可及，那么应用的爆发也就成为了必然趋势。百度创始人李彦宏还预判：“模型会有很多，但未来真正统治这个世界的是应用，应用才是王者。”

在发布最后，李彦宏的发言也引发了现场开发者的热烈掌声反馈，他说——

所有这些发布，都是为了让开发者们可以不用担心模型能力、不用担心模型成本、更不用担心开发工具和平台，可以踏踏实实地做应用，做出最好的应用！

一手实测！文心X1/4.5 Turbo推理和多模态双双变强，还把模型成本降了6成？！

一手实测！文心X1/4.5 Turbo推理和多模态双双变强，还把模型成本降了6成？！

实测之后，还是太全面了！

文心大模型X1 Turbo

文心大模型4.5 Turbo

挖一挖背后的技术

在思考路径中融合工具调用

采用不同模态混合训练

数据的合理挖掘及运用

训练推理中采用联合优化

把生产力成本打下来了

test

test

文心AIGC

test

test

2025 年 4 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

2025 年 4 月
一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30