一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

565次阅读
没有评论

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

背后核心技术也公开了

“周周有发布,天天有更新。”

这是百度创始人李彦宏最新对大模型竞速的感慨,但……卷王实际就是百度自己,因为就这一个多月以来,百度已经连发4款模型了。

就在刚刚,在Create 2025百度AI开发者大会上,李彦宏又一口气官宣了两款新模型:分别是主打深度思考和多模态的X1 Turbo/4.5 Turbo

而且发布即上线,普通用户现在都能免费体验。

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

据介绍,它们是百度在3月发布的旗舰模型X1、4.5的升级版推理和多模态能力双双更跃Level。

比如在挑战“史上最难高考数学题之一”时,新模型是为数不多能给出正确答案的选手(正确答案为145)

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

一个冷知识,2003年数学全国卷被誉为“史上最难高考卷”,而这道题还是里面的压轴大题,难度可想而知。

甚至,至今还能看到一众自称03级的网友集体“诉苦”:

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!
一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

再比如面对一段让人眼花缭乱的视频,新模型竟成功猜对了小球的位置。

正确答案是3号杯子,话说大家最终猜出来了吗?(doge)

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

根据官方测评结果,深度思考模型文心X1 Turbo(深蓝),整体效果领先DeepSeek R1、V3最新版。

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

文心4.5 Turbo(红色),多模态能力优于GPT 4o,文本能力与DeepSeek V3最新版持平,优于GPT 4.5。

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!
一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

目前,两款新模型均在文心一言官网开放,开发者在百度智能云千帆大模型平台,也可直接调用API

另外,最关键的还是成本的下降!

文心4.5 Turbo输入0.8元/百万tokens,输出3.2元/百万tokens;文心X1 Turbo输入1元/百万tokens,输出4元/百万tokens。

以上价格,前者仅为DeepSeek V3的40%,后者仅为DeepSeek R1的1/4;同时相比一个月前的X1/4.5,价格均下降一半及以上。

大模型能力在进化,成本在下降,应用创新的大爆发将势不可挡。

只不过,咱还是先从一些具体能力上,看看百度最新最强大模型文心X1 Turbo/4.5 Turbo,究竟是不是像跑分展现的那么强?

老规矩,上一手实测~~

实测之后,还是太全面了!

首先来看主打深度思考的文心X1 Turbo模型。

据介绍,它基于文心4.5 Turbo,在性能提升的同时,具备更先进的思维链,尤其擅长推理工具调用

文心大模型X1 Turbo

一上来,我们先拿一道经典逻辑陷阱题热热身:

一根5.5米的竹竿可以通过高4米宽3米的门吗?

对于这样一个看似简单的问题,目前市面上绝大多数的模型反应be like:

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

而文心X1 Turbo经过一番严谨论证,第一次就得出了正确答案(通过调整竹竿的倾斜角度,可以通过)

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

看来这种问题已经难不倒它了,接下来难度升级。

直接一步到位,扔给它一道某地高中物理模考卷压轴题,还是只上传图片的那种:

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

可以看到,对于这种涉及专业领域的高难度推理题,X1 Turbo依旧思路清晰。

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

先是自主调用“图片理解”工具识别出题目与火箭发射有关,然后上手一步步解题,最终给出了正确答案。

值得注意的是,尽管考查的是X1 Turbo的逻辑推理能力,但我们已经提前发现它的一大特色——

与其他推理模型相比,文心X1 Turbo能够灵活调用各种工具

官网显示,文心X1 Turbo默认开启代码解释器、文档阅读、图片理解、图片生成等诸多工具,一旦意识到答案涉及代码、表格、图片等多模态内容,就会自动调用这些工具。

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

比如在日常生活中,我们随手将一张美食照分享给文心X1 Turbo,让它帮忙反向解析详细制作过程。

而且为了便于收藏,我们还要求它最终直接生成一份PDF文件

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

结果,X1 Turbo分别调用图片理解和代码解释器工具,生成了一份可直接下载、内容完整的PDF制作工序文件。

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

看来挑战还是太简单了,好好好,接下来我们干脆玩把大的。

让文心X1 Turbo帮我们规划一个五一去北京游玩的行程,而且提了一大堆要求,不能太“特种兵”,住宿、交通、门票等等都要考虑到,结果用表格呈现……主打一个全面考察工具调用

话不多说,来感受一下最终效果:

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

不仅贴心标注了“五一行程——8点自然醒版”(doge),而且表格中每一天的安排都非常清晰,甚至特意标出了需要提前预约的景点和预约渠道。

再仔细一看,同一天安排的景点的位置都比较靠近,属于合理范畴。

此外,我们还发现文心X1 Turbo支持继续对话生成,能在前面的行程规划上,接着为每个景点生成配图。

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

最后顺便一提,我们在测试文心X1 Turbo的推理和工具调用能力的过程中,还发现它在创意写作方面有点意思。

恰逢五一假期临近,我们让它根据一张“西湖人山人海图”,仿照《岳阳楼记》的文风写一篇游记。

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

对比一下《岳阳楼记》原文,是不是有内味儿了~

庆历四年春,滕子京谪守巴陵郡。越明年,政通人和,百废具兴,乃重修岳阳楼,增其旧制,刻唐贤今人诗赋于其上,属予作文以记之……

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

其次来看主打多模态的文心4.5 Turbo模型。

据介绍,它源自文心4.5,是效果更好、成本更低的多模态大模型。

文心大模型4.5 Turbo

实测下来发现,相比单项推理能力突出的文心X1 Turbo,它更像是一个主打综合实力的“六边形战士”。

切换模型后,底部输入框的文档、图片、视频、音频等多模态功能全部“点亮”:

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

文本能力就不用多说了,我们直接上传一张经典梗图,考查其视觉理解能力,结果也是秒秒钟get~

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

再来个实用的,让4.5 Turbo设计一些包含故宫博物院元素的冰箱贴文创。

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

相同提示词下,通过对比文心4.5和4.5 Turbo,可以看到后者的生成效果确实更好、更精致了。

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

最后,文心4.5 Turbo也能理解音视频素材。

一方面可以直接和它语音对话,亲测用四川方言也能实现无障碍交流:

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

另一方面还能综合分析视频中的场景、声音、人物等等,目前单个视频最大支持20MB。

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

小结一下,百度此次推出的文心大模型X1/4.5 Turbo,实测下来在推理能力和多模态能力上确实有一定程度升级。

那么接下来的问题是:背后依靠了哪些核心技术?

挖一挖背后的技术

在思考路径中融合工具调用

首先,作为能够自主运用工具的深度思考模型,文心X1 Turbo背后的关键技术包括:

其一,突破了仅基于思维链优化的范式,在思考路径中结合工具调用,构建了融合思考和行动的复合思维链,模型解决问题的能力得到显著提升。

其二,结合多元统一的奖励机制,实现了长距离思维和行动链的端到端优化,显著提升了跨领域解决问题的能力。

一般而言,传统的单一奖励机制往往只能从一个角度评估模型的性能,这可能导致模型“顾此失彼”,比如过于关注语法,可能就会忽略语义的连贯性。

而多元统一奖励机制是从多个维度全面评估模型的性能,这种综合性的反馈机制能够帮助模型在多个方面同时优化,从而提升整体实力。

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

采用不同模态混合训练

其次,为了提升文心4.5和4.5 Turbo的多模态能力,一大关键就是采用了不同模态(文本、图像和视频)的混合训练。

针对不同模态数据在结构、规模、知识密度上的差异,主要应用了如下技术:

  • 多模态异构专家建模
  • 自适应分辨率视觉编码
  • 时空重排列的三维旋转位置编码
  • 自适应模态感知损失计算

最终,模型的学习效率提高近2倍,多模态理解效果提升超过30%。

而且为了进一步提升模型的综合实力,他们在后训练阶段也进行了优化。

研制了自反馈增强的技术框架,基于大模型自身的生成和评估反馈能力,实现了“训练-生成-反馈-增强”的模型迭代闭环

这不仅解决了大模型对齐过程中数据生产难度大、成本高、速度慢等问题,而且显著降低了模型幻觉,提升了模型理解和处理复杂任务的效果。

此外在训练阶段,他们还研制了融合偏好学习的强化学习技术,通过多元统一奖励机制,提升了对结果质量判别的准确率,通过离线偏好学习和在线强化学习统一优化,进一步提升了数据利用效率和训练稳定性,并增强了模型对高质量结果的感知。

正是因为受益于偏好信号与奖励信号的融合运用,模型的理解、生成、逻辑推理和记忆等能力才得以全面提升。

数据的合理挖掘及运用

当然,能够训练出高质量模型,还离不开对数据的合理挖掘及运用。

在这方面,他们打造了“数据挖掘与合成 – 数据分析与评估 – 模型能力反馈”的数据建设闭环

主要体现在两点:

一是针对专业深度知识及领域过程知识的数据稀缺问题,研制了原理驱动、过程评估与结果校验的数据合成技术、知识点驱动的大规模稀缺数据挖掘技术,提升数据的知识密度和覆盖面。

二是针对不同模态数据割裂、跨模态语义关联难度大等问题,提出了融合语义对齐的多模态平行数据构建、融合视觉知识的描述生成等技术,大幅提升不同模态数据的对齐精度和深度语义关联,增强多模态理解能力。

最终实现了——既能源源不断地生产知识密度高、数据多样、领域覆盖广的大规模数据,还能将数据建设流程轻松迁移到全新的数据类型。

训练推理中采用联合优化

除了上面这些,技术团队还进行了模型的算力优化。

训练方面,多模态统一的掩码注意力加速,利用飞桨已有的块状掩码注意力加速技术,显著降低不同模态混合计算注意力时的掩码构建和计算开销,大幅提升训练性能。

推理方面,多模态流式分块预填充机制,减少首token耗时,同时减少推理计算的显存峰值,提升推理批次大小,提升吞吐性能。

而且值得一提的是,开发者还能利用百度飞桨框架3.0,“像写单机代码一样写分布式代码”,借助其动静统一自动并行技术,开发者无需感知复杂的通信和调度逻辑,即可实现大模型的开发。

目前,文心飞桨的开发者数量已经超过了2185万,服务超过67万家企业,创建的模型达到110万。

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

未来,随着百度进一步走向开源,开发者也能通过该框架实现更多开源模型的高性能推理了。

把生产力成本打下来了

技术上所具备的核心优势,最终也让百度把模型价格狠狠打下来了。

还在一个月前,百度发布的文心大模型X1和4.5,就因为低于ChatGPT和DeepSeek的价格出圈。

而现在发布的文心X1 Turbo/4.5 Turbo,模型性能升级的同时,价格却进一步降低了。

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

文心大模型X1 Turbo API,输入价格1元/百万tokens,输出价格4元/百万tokens,仅为DeepSeek R1调用价格的1/4,而且相比文心大模型X1,价格直接腰斩。

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

文心大模型4.5 Turbo API,输入价格0.8元/百万tokens,输出价格3.2元/百万tokens,仅为DeepSeek V3调用价格的40%,而且相比文心大模型4.5,价格更是下降了80%。

一手实测!文心X1/4.5 Turbo推理和多模态双双变强,还把模型成本降了6成?!

而且不止卷价格,一旦梳理百度目前采取的一系列动作,我们就能看到一个核心关键词——生产力

一方面,百度作为国内最早入局大模型的头部玩家之一,始终坚决投入下一代基础模型。

模型升级的方向,目前主要包括推理、多模态、工具调用等等,这些功能均围绕“生产力”展开,主要是为了满足普通人的日常工作生活需要。

带来的结果是,越升级基础模型,我们普通用户越能免费薅到更强大的生产力工具

另一方面,他们还为开发者提供了全方位支持。以文心大模型为例,目前已经形成了从模型到工具平台的完整体系,包括文心4.5、X1等旗舰模型及其Turbo升级版、文图生成模型、场景模型和轻量模型、文心一言和智能体,以及赋能开发者的数据生产、后训练、推理部署和场景化工具等。

再加上模型价格一降再降,开发者搞应用的门槛也更低了,这将推动AI应用进一步爆发,进而有望提升整个社会的生产力。

这或许也是百度这届AI开发者大会,主题“模型的世界,应用的天下”的关键原因,模型已经遍地都是、触手可及,那么应用的爆发也就成为了必然趋势。百度创始人李彦宏还预判:“模型会有很多,但未来真正统治这个世界的是应用,应用才是王者。”

在发布最后,李彦宏的发言也引发了现场开发者的热烈掌声反馈,他说——

所有这些发布,都是为了让开发者们可以不用担心模型能力、不用担心模型成本、更不用担心开发工具和平台,可以踏踏实实地做应用,做出最好的应用!

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2025 年 4 月
 123456
78910111213
14151617181920
21222324252627
282930  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...