智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

1,151次阅读
没有评论

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏

赶在2024年的最后一天

金磊 发自 凹非寺

量子位 | 公众号 QbitAI

终于,在2024年的最后一天,智谱版o1也来了!

名字叫做GLM-Zero-Preview,Zero推理模型(下文简称Zero模型),自称是擅长通过逻辑推理来解决数理问题

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

既然如此,那么我们就直接一套2024年考研数学真题来伺候一下吧~

规则也很简单,就是把真题的题目以截图的方式“喂”给Zero模型,这样也可以顺便考验一下它的视觉理解能力。

例如我们小试牛刀地截取第一道函数选择题

这道题怎么解?

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

从Zero模型生成的结果来看,主要分为四大部分

  1. 读题审题
  2. 深度思考
  3. 解题步骤
  4. 最终答案
智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

有意思的是,Zero模型在深度思考过程中,它的思维方式像极了人类,而且每一步思考也描述的非常详细,最终给出了正确答案:C

但同样的问题给到了ChatGPT o1……Emmm,先败在了“识图”这一步。

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

再来第二道测试题——线性代数

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

还是同样的“配方”,来看下Zero的解题过程:

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

Zero模型按照逻辑顺序一步步拆解了这个问题,从基本定义、条件推导到最终结果,展示了较为清晰的解题思路。

在过程中,Zero模型对关键条件还进行了分步分析,同时对结果的数学意义进行了验证。

最终,依旧是给出了正确答案:D

在函数、线性代数之后,我们再来一道概率统计

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

我们来看下Zero模型的解析过程:

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

回答依然正确:D。

在尝试不同类型的选择题之后,我们不妨再来测一波大题。

直接上压轴题!

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

值得注意的一点是,这道题需要同时解答两个问题,我们来看下结果:

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

Zero模型统统答对了!

看来智谱版o1敢把“擅长数理问题”直接打出来,确实是有点东西在身上的。

据官方介绍,同基座模型相比,GLM-Zero-Preview 在不显著降低通用任务能力的情况下,在专家任务能力方面表现大幅提升。

并且它在AIME 2024、MATH500 和 LiveCodeBench评测中,已经取得了与OpenAI o1-preview相当的效果。

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

而且有一说一,抛出解析过程和结果,相比其它类o1大模型来说,单是整体的布局这块,不论是文字和公式,似乎更加符合数学之美

但毕竟数学还是只是评测大模型推理能力的维度之一,因此,我们继续开启更多维度的“极限挑战”

一句话让马斯克跳舞变字符画

代码编程能力,同样也是类o1推理模型重要的一面。

我接下来就实测一下Zero模型能否用一句话生成小游戏

HTML做一个贪吃蛇。

Zero模型根据要求,一步一步推理过后生成了一段完整的代码(上下滑动查看所有内容):

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

然后我们只需复制粘贴到了IDE里,并在浏览器中运行,一个可玩的简单版贪吃蛇游戏就做好了。

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

再来一个有意思的:

HTML实现动态黑客帝国雨,全屏幕,竖着下,错落有致,敏感交错。

我们同样先来看下生成出来的代码(上下滑动查看所有内容):

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

还是一个复制粘贴的动作,来看下效果:

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

嗯,确实是有点那个味道了。

或许你会说,这些代码功能过于简单了,别急,我们这就来上点难度——

把马斯克跳舞名场面视频,一句话变成字符画版本!

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

我们的Prompt是这样的:

在Mac中,用Python把输入视频内容变成字符画,然后再输出一个新的视频。

然后Zero模型就给出了代码(上下滑动查看所有内容):

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

同样仅需复制粘贴,然后设置一些输入、输出文件的路径,运行代码后我们就可以得到这样的视频啦:

(PS:背景音乐为后期所配)

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

视频地址:https://mp.weixin.qq.com/s/HeLoB7_R2z8TMcMdJRlGEw?token=904287848&lang=zh_CN

如果想再来点颜色,也是一句话的是:

在上面的代码基础上,进行彩色化处理。

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

视频地址:https://mp.weixin.qq.com/s/HeLoB7_R2z8TMcMdJRlGEw?token=904287848&lang=zh_CN

由此可见,Zero模型在代码生成方面可以说是过关的。

更多维度实测

在数学和代码之后,我们继续从更多维度来全方面测试一下Zero模型。

视觉推理

请听题:

以下是一组数字与符号的对应关系:
1→♡
2→

3→♢
4→♡

请推测 6 的符号表示,并解释推导过程。

上下滑动查看所有内容:

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

Zero模型能够根据数字与符号的关系,分析出潜在规律,推导过程的过程也是清晰地阐述了出来。

再来:

这几个数字能组合成的最大数字是多少?

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

Zero模型给出的答案是这样的(上下滑动查看所有内容):

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

可以看到,Zero模型先是准确识别出了台球上的数字,然后用推理能力一步步将能够组合成的最大数值给了出来。

加密问题

我们再来一道可以考验大模型能力的加密问题

请听题:

已知 ukwmfvhxyondhxjz rhfvpfjzxn ukjzwmkajzhxyo -> practice makes perfect 请基于这个例子找到密文 ukqgfvsi gwjzkatjwmjz dttjzp hxtjiyjz 对应的原文。

而这里出现的结果就比较有意思了。

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

Zero模型给出的答案是:hard work pays off.

但我们同时还用ChatGPT o1和DeepSeek V3做了比较:

  • ChatGPT o1生成结果:pray before you code.
  • DeepSeek V3生成结果:planned forest consented.

各家大模型的结果均不相同,这道题到底是谁正确,小伙伴们可以亲测一下,然后在评论留言讨论哦~

经典问题:9.9和9.11哪个大?

最后一道测试,我们还是用那个非常经典的问题:

9.9和9.11哪个大?

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

嗯,这个问题已经是难不倒Zero模型了。

智谱的大模型再添一块拼图

在2024年的最后一天,智谱也是终于在各大玩家之后发布了类o1模型。

由此,其大模型的矩阵也变得更加庞大:

文本生成(GLM)、图像生成(CogView)、视频生成(CogVideoX)、音效生成(CogSound)、音乐生成(CogMusic)、端对端语音(GLM-4-Voice)、自主代理(AutoGLM)、AI推理(GLM-Zero-Preview)。

能够以如此“全栈”姿态在大模型时代角逐的玩家,着实是屈指可数。

智谱版o1终于也来了:直接拿下考研数学,一句话就能做小游戏!

而另一方面,若是细数今年内智谱的技术发布时间轴,结果是更加的密集且紧凑:

  • 11月,发布AutoGLM升级版,可自主执行超50步的长步骤操作,也可以跨app执行任务,开启“全自动”上网新体验,支持基于浏览器的数十个网站的无人驾驶。
  • 11月,发布GLM-PC内测,基于智谱多模态模型CogAgent,探索“无人驾驶”PC。可代替用户参与视频会议、处理文档、搜索网页并总结、远程定时操作。
  • 11月,视频模型CogVideoX升级,支持10s时长、4k、60帧超高清画质、任意尺寸以及更好人体动作和物理世界模拟。
  • 10月,GLM-4-Voice端到端情感语音模型发布,并上线清言app,能够理解情感,有情绪表达、情感共鸣,可自助调节语速,支持多语言和方言,并且延时更低、可随时打断。
  • 10月,AutoGLM内测版发布,只需接收简单的文字/语音指令,就可以模拟人类操作手机,不受限于API调用。
  • 10月,和三星、高通宣布合作,分别共同打造AI产品和端侧多模态交互大模型。
  • 8月,发布跨文本音频和视频模态实时推理大模型GLM-4-Videocall,实现AI与人实时视频通话。通过API接口可无缝部署在包括手机在内各类带摄像头端侧设备。
  • 8月,新一代基座大模型GLM-4-Plus发布,语言理解、指令遵循、长文本处理等方面性能全面提升。
  • 7月,视频生成模型“清影”在清言PC端、移动应用端以及小程序端正式上线,提供文本生成视频和图像生成视频的服务,30秒即可完成6秒视频生成,真实还原物理世界中的运动过程。
  • 6月,GLM-4-9B模型,支持100万Tokens长文本和26种语言,多模态能力比肩GPT-4V。
  • 1月,新一代基座大模型GLM-4发布,整体性能相比上一代大幅提升,支持更长上下文,具备更强多模态能力,推理速度更快,支持更高并发,大大降低推理成本。

这也有就很好理解为何在前不久,智谱能够拿到30亿元的新一轮融资,估值已超200亿元。

模型够全栈,技术够密集,市场够认可,智谱可以说是给今年画上了较为圆满的句号。

除此之外,智谱选择在今年最后一天发布类o1模型,其实也在预示着明年的大模型发展依旧会在推理Scaling Law上发力。

但与此同时,诚如ChatGPT o3这般“烧钱猛兽”目前也无法完全应对Frontier Math、ARC-AGI等超高难度的测试。

那么智谱又将会在推理这块如何出奇制胜,是值得期待一波。

Zero模型体验地址:
1、智谱清言:

https://chatglm.cn/main/gdetail/676411c38945bbc58a905d31?lang=zh
2、智谱开放平台:
https://bigmodel.cn/dev/api/normal-model/glm-zero-preview

2000万token免费体验资源包领取地址:
https://zhipuaishengchan.datasink.sensorsdata.cn/t/7K

参考链接:
https://kaoyan.eol.cn/shiti/shuxue/202312/t20231225_2550980_7.shtml

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 12 月
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
小米大模型“杀”进第一梯队:代码能力开源第一,智商情商全在线

小米大模型“杀”进第一梯队:代码能力开源第一,智商情商全在线

小米大模型“杀”进第一梯队:代码能力开源第一,智商情商全在线 克雷西 2025-12-18 08:57:11 ...
ISC.AI 2025创新百强颁奖典礼落幕,首发智能体专家驱动产业升级

ISC.AI 2025创新百强颁奖典礼落幕,首发智能体专家驱动产业升级

ISC.AI 2025创新百强颁奖典礼落幕,首发智能体专家驱动产业升级 量子位的朋友们 2025-12-18 ...
具身智能的数据难题,终于有了可规模化的解法

具身智能的数据难题,终于有了可规模化的解法

具身智能的数据难题,终于有了可规模化的解法 思邈 2025-12-18 14:20:44 来源:量子位 成立4...
医生版ChatGPT,估值120亿美元

医生版ChatGPT,估值120亿美元

医生版ChatGPT,估值120亿美元 Jay 2025-12-18 13:45:12 来源:量子位 Jay ...
国产AI芯片看两个指标:模型覆盖+集群规模能力 | 百度智能云王雁鹏@MEET2026

国产AI芯片看两个指标:模型覆盖+集群规模能力 | 百度智能云王雁鹏@MEET2026

国产AI芯片看两个指标:模型覆盖+集群规模能力 | 百度智能云王雁鹏@MEET2026 西风 2025-12-...