国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4

1,509次阅读
没有评论

国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4

  新智元报道  

编辑:编辑部

【新智元导读】狂飙三个月,智谱AI的大模型全家桶震撼发布了!GLM-4性能超进化,堪称「国产GPT-4」;GLMs和GLM Store,直接对标OpenAI的GPTs。


今天,国内唯一一家全系对标OpenAI的公司,又搞了一个大新闻

就在刚刚,智谱AI发布了「新一代基座大模型」GLM-4——性能全面比肩GPT-4。

其中,GLM-4不仅在中文能力上超过了所有竞争对手。

国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4

而且,长文本能力也一骑绝尘,实现了128K「大海捞针」全绿。

国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4

除此之外,智谱AI这次还发布了「定制化的个人GLM大模型」GLMs和GLM Store,再次对标OpenAI的GPTs!

国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4

新一代GLM-4,全面比肩GPT-4!

那么,这次新一代基座大模型GLM-4,究竟强在了哪?

与上一代ChatGLM3相比,GLM-4在综合能力上实现了全面跃升,性能提升了60%,已经逼近GPT-4。

它能够支持更长的上下文,具备更强的多模态功能,支持更快的推理,更多并发,推理成本大大降低。

同时,GLM-4也增强了智能体能力。

基础能力

从众多评测集中可以看到,GLM-4的性能提升非常明显。

相比于GPT-4,GLM-4在MMLU、GSM8K、BBH、HellaSwag数据集上分布达到了94%、95%、99%和90%的水平。

而在HumanEval数据集上,GLM-4则拿到了72分,明显超过了GPT-3.5和GPT-4的水平。

国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4

指令跟随

在IFEval评测集上,在Prompt提示词跟随(中文)方面,GLM-4达到了GPT-4 88%的水平。

在指令跟随(中文)方面,则达到了GPT-4 90%水平,大大超过GPT-3.5。

国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4

中文对齐

在模型实际应用过程中,大家更关注的,是中文的对齐能力。

在对齐能力上,基于AlignBench数据集,GLM-4超过了GPT-4在6月13日发布的版本,逼近GPT-4最新(11月6日Turbo版本)效果。

在专业能力、中文理解、角色扮演方面,GLM-4甚至超过了GPT-4的精度。

不过,在中文推理方面,GLM-4的能力还有待进一步提升。

国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4

128K长文本

此前的128K大海捞针测试,难倒了众多大模型,但GLM-4却顺利通过。

在大海捞针测试中,128K文本长度内,GLM-4模型均可做到几乎百分百的精度召回。

国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4

GLM-4带来128K的上下文窗口长度,也就意味着,在单次提示词中,可处理文本达到了300页。

开发者再也不用担心文档太长,一次性处理不完了。

同时,模型的效果和精度也并没有下降。智谱AI团队完美解决了长上下文全局信息因失焦而导致的精度下降的问题。

多模态能力

这一次,GLM-4的文生图和多模态理解都得到增强。

全新推出的CogView3,效果明显超过开源最佳的Stable Diffusion XL,逼近最新OpenAI发布的DALL·E 3。

国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4

在对齐、保真、安全、组合布局等各个评测维度上,CogView3的效果都达到DALL·E3 90%以上水平。

相对之前,CogView3的语义理解能力都得到大大增强。

「鱼眼镜头中,有一只乌龟坐在森林里。」

模型准确地理解了什么是鱼眼镜头,以及乌龟在森林里的环境应该是怎么搭配的。

国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4

「西兰花下面的斑马」,模型理解得很准确。

国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4

「一只打扮的像20世纪80年代的职业摔跤手的博美犬,脸上涂着霓虹绿、霓虹橙,还有亮绿色的颜料」,这么复杂的prompt,模型也没出错,对于颜色、场景,都做到了高质量还原。

国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4

「一个放大镜在一页20世纪50年代的《蝙蝠侠》漫画的上空」,模型非常准确地理解了空间位置,以及放大镜蕴含的逻辑作用。

国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4

GLM-4 All Tools全家桶来了

上面,都还只是常规的单项模型基础能力提升,大会上最让人眼前一亮的,还是GLM-4-All-Tools全家桶。

国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4

在以往,我们都需要魔法咒语一样的提示词或者代码,才能调用大模型的能力。无论是回答问题、画一幅画还是使用外部知识源,总觉得LLM还不够聪明。

而现在,得益于GLM模型的强大Agent能力,GLM-4实现了自主根据用户意图,自动理解、规划复杂指令,自由调用WebGLM搜索增强、Code Interpreter代码解释器和多模态生成能力,从而完成更加复杂的任务。

也就是说,GLM全家桶的能力,终于实现了ALL IN ONE!

画图

在AI画图方面,GLM-4 All Tools可以很好地结合上下文语境进行创作。

比如,我们可以先画一只卡通柯基。

国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4

随后只要说「它开始跑步了」,GLM-4 All Tools就能理解,我们要的还是这只柯基在往前跑。

国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4告诉GLM-4 All Tools「一只小兔子加入它一起」,它就明白柯基是主角,兔子需要跟在柯基后面,同时保持奔跑。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4告诉它「跑得越来越快了」,背景就会虚化。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4总之,GLM-4 All Tools对上下文语境的理解非常准确。

代码解释器

同样,GLM-4也内嵌了代码解释器,能够自动调用代码解释器,进行复杂的方程或者微积分求解。在以下数据集上,GLM-4 All Tools取得了和GPT-4 All Tools相当的性能。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4下面这道数学多项式,该怎么求解?国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4或许可以直接训练一个数学模型,但问题更复杂的时候,LLM就容易出现幻觉。而GLM-4,则可以通过调用Python解释器,进行复杂计算,自动写出求解代码。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4不仅是数学问题,代码解释器还能完成文件处理、数据分析、图表绘制等复杂任务,支持处理Excel、PDF、PPT等格式的文件。可以让模型自动生成PPT大纲,还能调用代码,生成PPT文件。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4

网页浏览

靠着All Tools全家桶,GLM-4可以实现更高级的网页浏览。期间,模型会根据任务自行规划检索任务,自行选择信息源,自行与信息源交互。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4比如可以问它:我要参加2023年的CCF开源大会,当地天气是怎样的?这个问题的难点在于,我们并没有告诉它会议地点,模型自动进行了两次搜索,第一搜到了大会是10月21日在长沙举行,第二次搜到了长沙在10月21日的天气。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4可以看到,GLM-4 All Tools的网页浏览准确率,已经超过了GPT-4,令人印象深刻。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4

Function Call

All Tool还有一个通用能力:根据用户提供的function描述,自动选择所需function并生成参数,以及根据function的返回值生成回复。这方面的能力,已经跟GPT-4基本持平,在中文理解上,GLM-4 All Tools比GPT-4略强。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4

多工具自动调用现场实测

在大会现场,GLM-4 All Tools进行了一番怼脸实测。比如,让GLM-4 All Tools联网搜索「智谱2024 DevDay的宣传语」,然后就此主题画一幅画。可以看到,大模型自动搜索找到了相关发布页面。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4同时,生成的图片也很好地还原了GLM-4的意境。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4这幅图描绘了智谱2024 DevDay宣传语中的场景。图中展现了勇敢的⼈站在汹涌的潮头,⾯对远处的⻛暴毫不畏惧。GLM-4可以识别语义并联网,搜索多个数据源。它还可以生成一段代码,把生成的数据可视化出来,生成简单的图表。一句简单的输入,联网搜索、提取、代码解释器、绘图等多项原生能力就随之启动,根本无需手动控制。模型强大的理解、解释能力,也就随之而来。我们可以让GLM-4搭建一个多项式回归预测模型,预测未来5年的全球GDP发展态势。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4这样,就能更直观地看到过去十年和未来五年的发展趋势。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4根据从MacroTrends获取的数据,我绘制了2007年⾄2022年全球GDP的折线图。在图表中,我已经将下降的数据点标记为红⾊,以便于识别。您可以查看这张图表,以直观地看到全球GDP的变化情况。值得一提的是,GLM-4升级后,API调用价格维持0.1元/千tokens不变,继续保持较低水平。

国产「GPTs」全新上线

可以看到,智谱AI针对OpenAI的这种对标,不仅仅是「我有」产品,而是在诸多方面都达到了可比程度。最令开发者期待的是,国产「GPTs」也来了!DevDay上,智谱AI上线了定制化个人GLM大模型——GLMs。现在,无需代码基础,任何用户均可用简单的prompt指令,创建属于自己的GLM模型智能体,从而实现对大模型的便捷开发。比如,智谱AI这次就给自己的DevDay做了一个GLMs。只要打开智谱清言,进入智谱DevDay的智能体,就可以提问今天大会的事宜。甚至能直接要到现场PPT的下载地址。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4并且,GLMs模型应用商店,也有开发者分成计划。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4看得出,智谱AI可定制Agent——GLMs的发布,以及上线的GLM Store,在走和OpenAI一样的路线。继首届开发者大会上发布定制GPTs之后,OpenAI上周正式推出人们期待已久的GPT Store。短短2个月的时间,全世界已经诞生了300万个自定义的ChatGPT。网友纷纷表示,这就是AI时代的「APP Store」时刻。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4简单来说,GLMs降低了大模型的使用门槛,可以让更多的人参与进来,为AI广泛落地铺平了道路。相较于调用单纯的大模型,GLMs就像一个Agent,可以通过上传文件,比如私有数据等,让其获得额外的知识。这样,定制化的GLMs就能提升对特定问题回答的准确性,以极高的精度执行任务。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4苹果在2008年推出APP Store的最大价值在于,创造了一个新的生态,为第三方开发者带去数百万亿美元的收入。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4在AI新时代下,不论是GPT Store,还是GLM Store,都将带领世界开发者走向一条新的LLM商业化道路。好消息是,GLMs和GLM Store今天就已正式上线!国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4

复杂的模型产业链,一步步做起

众所周知,大模型是一个复杂的产业链。而行业对此的共识是:共同创造,才能产生真正的社会价值。那么,要做到这一点,首先要让大模型本身的能力足够强。

第一步,模型够强

在这一方面,智谱AI从未停下过自己的脚步。自2019年成立以来,这家AI初创公司便致力于打造新一代认知智能大模型,专注于做大模型的中国创新。一年后,智谱AI从0开始研发全新的GLM预训练架构,并在2022年推出了中英双语千亿级超大规模预训练模型GLM-130B。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4到了2023年,GLM系列大模型保持每3-4月更新一次的频率,逐渐形成了全面的AIGC产品矩阵。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4而这一次,性能足以媲美GPT-4的基座大模型GLM-4,是智谱AI进一步研发能力的体现。智谱AI CEO张鹏在技术开放日上表示,「GLM-4的推出,标志着国产大模型有能力对标世界人工智能最先进水平」。

模型之后,就是生态

除了模型自身的能力之外,开源社区和学术界的支持也至关重要。开源的意义在于,联合全球的开发者、研究机构、企业,共同让模型的数据更丰富、模型更优化、应用更全面。而对于个人开发者和中小企业来说,也能以最低的成本调用模型,不需要花费高昂成本。在国外,Meta以Llama 1的发布为起点,开辟了开源大模型竞相爆发的新路线。随着越来越多研究人员的加入,羊驼家族也迎来了大爆发:Alpaca,Vicuna,Llama-Adapter,Lit-Llama等变体相继出现。几个月后,Llama 2在很大程度上取代了Llama 1,成为功能更强的基础模型,甚至官方还推出了其他的微调版本。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4同样,国内的开源引领者智谱AI也早有布局。2022年,智谱AI率先开源高精度双语千亿模型GLM-130B和ChatGLM-6B。目前,GLM系列模型在Hugging Face上的下载量已经超过了1100万,在GitHub上累计星标超过5万。而智谱AI也成功跻身全球最受欢迎开源机构第5。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4基座大模型GLM-4和GLMs等,会进一步推动GLM的模型生态建设,让智谱AI已经构建起的全模型产品线更加强大。2024年,智谱对于学术的支持还会继续。1000万元现金和算力资源的大模型科研基金,2023年来已经有三十余所高校参与。现在,每一个研究者,均有机会参与大模型的研究,还会拥有自己研发的知识产权。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4此外,智谱AI还针对开源社区发起了大模型开源基金,为优秀的开发者提供了高达三个「一千」的支持——1000张卡、1000万人民币和1000亿tokens。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4同时,智谱AI还重磅升级了面向全球大模型创业者的「Z计划」。创业基金的总额,达到10亿元!这项基金,用于支持大模型原始创新,覆盖大模型算法、底层算子、芯片优化、行业大模型和超级应用等各个方面。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4

联合上下游,推动产业升级

而在商业领域,智谱AI在2023年里已经积累了1000多家合作伙伴,并与200多家实现了深度共创。怎么看一个大模型好不好用?最终结果,还是要看有没有真正的落地。目前,GLM系列模型的能力,已经覆盖了包括金融、咨询、互联网、传统消费产品、智能制造、传媒等诸多领域。国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4与此同时,智谱AI还将包括国产芯片、不同垂直领域服务集成商等上下游行业合作伙伴团结到一起,共同推动整个产业进步与升级。可以看到,围绕着GLM系列模型的生态圈,正在加速形成。智谱AI CEO张鹏表示,「一枝独秀不是春,中国的人工智能事业要繁荣、要发展,需要所有的参与者、产业链上下游合作伙伴、开发者社区、学术界一同努力。智谱不仅有意愿,而且有能力为打造繁荣的国产大模型生态贡献自己的力量」。参考资料:https://chatglm.cn/main/toolsCenter
国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4
国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4
国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 1 月
1234567
891011121314
15161718192021
22232425262728
293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law

MiniMax海螺视频团队首次开源:Tokenizer也具备明确的Scaling Law 一水 2025-12...
天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话

天下苦SaaS已久,企业级AI得靠「结果」说话 Jay 2025-12-22 13:46:04 来源:量子位 ...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
摩尔线程的野心,不藏了

摩尔线程的野心,不藏了

摩尔线程的野心,不藏了 量子位的朋友们 2025-12-22 10:11:58 来源:量子位 上市后的仅15天...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身

AI体育教练来了!中国团队打造SportsGPT,完成从数值评估到专业指导的智能转身 量子位的朋友们 2025...
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026

真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026 量子位的朋友...