30多款大模型亮相,现阶段厂商比客户更需要大模型

565次阅读
没有评论

30多款大模型亮相,现阶段厂商比客户更需要大模型

图片来源@视觉中国

文|TE智库,作者|Koko,编辑|南四

如果不是在WAIC展会上,你很难有机会一口气见到这么多AI大模型。

7月6日至8日,WAIC2023在上海举办,在这场人工智能领域规格最高的会议上,参与交流的大模型数量超30个,其中多个大模型是最新发布;在400余家参展商中,芯片企业、AI公司、创业公司、互联网企业、运营商、数据公司和场景企业的展台都有与大模型相关的展示,含“模”量属实有点大了。

以大模型为代表的AI 2.0,开启了AI发展的范式转移。相较1.0时代主要通过训练多个模型完成图像识别、声音识别、语言处理等不同场景的任务,AI 2.0则克服了前者单领域、多个独立模型的限制,可以从海量的数据中学习并生成新的内容,与用户进行更加自然的交互。

简而言之,它可以自己学习生成内容了。所以本届大会的主题也变成了“智联世界 生成未来”。

有声音说,人类社会正在迎来技术变革的“奇点”。但在经历了AI发展的3波浪潮,以及自动驾驶、元宇宙等技术发展的初期惊奇和漫长的落地周期后,也有质疑的声音出现。

ChatGPT是通用人工智能的起点,还是又一个噱头?7月7日上午,信通院主办的大模型相关论坛圆桌环节上,清华大学国强教授、智能产业研究院首席研究员聂再清发问。

这个问题,得到了上海人工智能实验室教授助理乔宇、商汤商量大语言模型技术总负责人王历伟、蚂蚁集团资深算法专家张天翼、云天励飞副总裁肖嵘4位嘉宾一致的积极答复。

就连学生、市民也用实际行动凑了这场热闹——亿欧TE在现场看到,即使在十二点到两点的午间时刻、亦或是接近闭馆的五点,世博中心展馆内人潮依然不亚于其他时段。人群中有成群结队的中小学生,也有从外地赶来的大学生,亦或刚从体验中心下班的妇产科医生来AI扫盲,还有带着自己工厂问题来寻求答案的产业人士……

这似火的热情,一如上海7月的骄阳,尽管大会期间还下了一夜暴雨,高温仍没消退。

大厂在大模型领域布局最完整

7月6号下午四点过,亿欧TE从世博中心转移到世博中心展馆,第一感受是“好多人”。尽管已经临近闭馆时间,有人开始离场,但更多人还在展馆学习交流。

据WAIC官方介绍,本届大会参展数量、参展面积均创历届之最。展馆内区域大致可以按照模型厂商、芯片企业、数据公司、机器人厂商、自动驾驶企业来划分。而生成式AI几乎无处不在。

大模型俨然成为本届WAIC展馆的主角。亿欧TE看到,百度、商汤、阿里、华为、讯飞、第四范式、出门问问、蜜度、网易等十余家科技企业都着重展示了其大模型和应用场景。

其中百度、华为、阿里和商汤在算力、模型和应用——大模型上下游关键节点做到全布局 。

自今年3月份发布文心一言大模型后,百度已在芯片(昆仑芯)、框架(飞桨社区)、模型(文心系列)、应用(百度云合作伙伴)四层完成全栈布局。

百度集团副总裁袁佛玉在7月7日的演讲中提到,“百度可以对每一层进行优化,层和层之间还能积极反馈做强化协同,进而获得整体性能的提升、成本下降,这是其他大模型厂商不可复制的优势”。

在展馆现场,百度智能云展示了AIGC+智慧金融、智慧能源、智能制造、智慧水务、智慧城市、智慧媒体的能力。

商汤展馆也大秀了一把肌肉,展现了其算力、模型和AI应用能力。

在现场,商汤的展馆主打一个和观众的交互性。早在今年4月,商汤就发布了“日日新”大模型体系,包括千亿级参数的语言大模型“商量”、文生图创作平台“秒画”、AI数字人视频生成平台“如影”、3D内容生成平台“琼宇”和“格物”,这些都在展台对观众开放体验。让观众现场体验一把即时作诗作画的乐趣。

据了解,

商汤展区最不缺人流量,在商汤为学习围棋青少年设计的“元萝卜”AI下棋机器人展示区域,不少儿童和家长驻足体验。

 

至于算力方面,商汤展馆工作人员告诉亿欧TE“去年下半年,商汤内部曾比较激进地推动过芯片的国产替代,但是ChatGPT火起来后,英伟达在大模型训练方面的能力仍不可替代。不过,随着国产芯片的能力提升,其应用也会排上日程。”

同样一个热度很高的展台是华为。在这里,亿欧TE也看到了分区规整的底层芯片、框架和中层模型、上层应用的区域展示。

硬件方面,华为推出昇腾Atlas 300T训练卡对标英伟达产品软件方面,华为推出昇思打造开源生态,对标海外主流AI框架。 

华为云还在7月7日召开开发者大会2023,发布“盘古大模型3.0”与WAIC展馆遥相辉映。盘古大模型3.0是一个面向行业的大模型系列,有基础大模型、行业大模型、专用大模型三层架构

它号称自己“不作诗,只做事”。这有点对着队友们开炮的意思。

在WAIC展馆中心,亿欧TE看到华为云的矿山、药物分子、电力、气象等多款行业大模型展示。根据现场走访,亿欧TE发现华为在行业大模型的发布节奏上已经走在前列。

与之相比,不少大模型厂商做行业大模型的逻辑是,先与行业企业共创做单个项目落地,在此基础上积累行业Know-how再推出行业大模型。

“行业数据很宝贵,必须和企业合作,大模型厂商才能获得Know-how。”多位大模型厂商展台工作人员告诉亿欧TE。

而华为能率先推出十余个行业大模型,离不开过去几年在ToB业务的深厚积累。华为展台工作人员告诉亿欧TE,目前各行业大模型的商业化由相应军团来落地。

在阿里云展台,工作人员告诉亿欧TE,阿里“通义千问”大模型已经在政务、媒体和电商零售等领域落地。目前通义千问仍是大语言模型,主要面向大客户做定制化落地。

30多款大模型亮相,现阶段厂商比客户更需要大模型

而阿里的行业解决方案MaaS系列是其开源社区魔搭的一环,这里有各行各业企业上传的场景模型,供中小企业客户接入使用。

相对来说,阿里展台做到了ToB的专业性和ToC的趣味性的融合,现场来自达摩院的工作人员负责专业讲解,一旁的体验区,普通市民可以感受通义千问在问答、办公等场景的生成式能力。

本次展会上,BAT中唯有腾讯对大模型的展示非常“吝啬”,腾讯的“混元”大模型还没有发布,而其此前发布的行业解决方案展板仅占据腾讯云中间的一个角落,并无专业人士驻守,因此该区域的观众也有限。反倒是隔壁腾讯游戏的“全息长城”体验区,观众排队几乎绕场半周。

30多款大模型亮相,现阶段厂商比客户更需要大模型

二梯队AI厂商主打大模型应用场景能力

相对来说,其余大模型厂商则主要展示了他们的大模型及应用场景。

讯飞展示了“星火”大模型在办公、教育、医疗、工业、金融、汽车和数字员工的应用场景。

第四范式的“式说”大模型瞄准银行客户经理、工厂管理员、医生、门店店长、产经纪人、司法人员场景。其中,“我爱我家是‘式说’大模型发布后,第四范式的新客户。”

出门问问展示了其大模型“序列猴子”在美妆博主、律师、财富助手、作家等细分场景的应用能力。

值得一提的是,今年5月下旬,出门问问向港交所递交招股书,成为国内第一家以通用大模型能力为主打概念启动上市的企业。

蜜度强调其“蜜巢”模型在舆论监控方面的领先性,“我们的壁垒在于与微博、抖音等舆论发酵地紧密的合作关系,以及我们对舆情数据的标签细分做得很充分,可以最快速度检测到舆情并做出管控反应。”

网易伏羲将生成式AI能力落地到自己工程机械、游戏美术和元宇宙的产品里。以工程机械场景为例,网易伏羲基于自研工业大模型,推出具有“自我进化”能力的工程机械大脑。目前该技术正在与中建八局共创中,并落地了沪通铁路智能混凝土搅拌站。

这里面有一个特殊的存在——中国移动。实际上,中国移动找到一个非常细分的AIGC场景——家庭监控视频的社交分享。因为一些监控视频具有社交意义,但是内容可能不便于直接发布在网络等公共环境,这时用户可以选择漫画化等方式处理视频,再上传网络。

中国移动工作人员告诉亿欧TE,目前团队内部还在开发医生问诊等应用场景,作为拥有云服务的运营商,中国移动不会缺席这波AIGC的浪潮。

京东、字节、美团:根据自身业务打造行业大模型

除上述在WAIC2023展馆中心展示了大模型应用的企业,同样值得关注的国内大模型厂商还有京东云、字节跳动和美团等。

其中,京东将于7月13日发布言犀大模型。京东官方向亿欧TE透露,京东的优势在于有丰富的零售、物流、金融、健康、政务等垂直场景的数据和行业经验积累。因此,言犀大模型的定位就是面向产业,训练时融合70%的通用数据与30%数智供应链原生数据,针对知识密集型、任务型产业场景。

具体来说,言犀大模型的落地分3步走:一、基于内部实践构建通用大模型;二、在零售、金融、健康、物流等京东内部高复杂场景大规模锤炼,形成行业解决方案;第三步,对外开放大模型能力。

届时,对于有模型训练需求的客户,京东将提供言犀大模型开放计算平台、向量数据库基础设施能力,以及2个行业数据平台。对于需要现成解决方案的客户,在零售场景京东将提供零售云全场景解决方案3.0,金融场景提供“智能选基”产品、金融增长云解决方案,物流场景提供京慧3.0供应链管理平台,政务方面提供数字城市解决方案3.0。

几乎从6月中旬腾讯大模型未先露面,行业解决方案先行开始,厂商们都更加务实地提供大模型与行业结合的解决方案,打开大模型落地千行百业的序幕。这在字节身上同样得到体现。

6月底,字节跳动通过火山引擎发布大模型服务平台“火山方舟”,面向企业提供模型精调、评测、推理等MaaS平台服务,并首批集成了百川智能、复旦大学 MOSS、IDEA 研究院、澜舟科技、MiniMax、智谱AI等多家大模型供客户选择。

在所有的大厂里面,字节的大模型战略最具有开放性——率先和多家大模型创业公司和科研机构展开合作,允许客户选择其他大模型产品,在自己的云平台上进行训练和推理。

不过这或许还是因为字节在ToB业务起步最晚,此前在大模型研发的相关积累也有限。大模型方面,据财新此前的报道,字节内部另有团队在自研语言和音视频大模型。

相对来说,美团在大模型领域的步伐迈得更慢一些,还没有发布任何产品。在本次WAIC2023展览中心,美团也主要展示的是其第四代无人机。但由于美团在6月底通过港交所公告宣布收购光年之外,其在大模型领域的后续同样值得关注。

光年之外是上半年AI 2.0明星创业公司,团队组建囊括了北京智源人工智能研究院副院长刘江、“搜狗输入法”之父马占凯等技术人才,并收购了国产AI架构公司“一流科技”。在其创业之初,创始人王慧文对外的口号是要打造中国的OpenAI

大模型落地,待企业与客户共创

把时间拉到5月底,科技部发布的《中国人工智能大模型地图研究报告》显示,我国10亿参数规模以上的大模型已发布79个。而当下,国内的大模型领域或许已经迎来“百模大战”。

大模型训练成本不菲。据国盛证券报告《ChatGPT需要多少算力》估算,GPT-3训练一次的成本约为140万美元,对于一些更大的大语言模型,训练成本介于200万美元至1200万美元之间。

企业投入如此庞大的金额,自然是期待更巨大的回报。而当下国内市场短短半年就有如此多大模型如雨后春笋般冒出,不仅引人发问,市场真的需要吗?

九章云极创始人方磊曾告诉亿欧TE,Q2很多客户都在调预算,特别是大客户对于创新应用的态度很积极,根据公司规模调拨500万元到2000万元做大模型的创新落地,是一件比较容易的事。

在WAIC2023现场,亿欧TE也看到不少企业负责人在咨询大模型落地的方案。

可以明确,市场对大模型能力的需求是有的,但也主要依赖大模型厂商来主导共创或提供解决方案。至于是哪一家大模型厂商?一般来说企业会考虑大模型的可用性、安全性和成本。

可用性方面,多家大模型厂商展台的工作人员告诉亿欧TE,现在各家大模型的能力都差不多。其次,数据和业务的安全性则是所有大模型厂商必备的能力。成本方面,目前大模型厂商提供的千个token调取费用向OpenAI看齐,定制化大模型部署都要上千万。

在当前还看不出哪家大模型产品具有绝对优势的前提下,客户往往会选择原来已有业务合作的大模型厂商。这也是为什么大厂大模型商业化团队的组织架构基本和自己的云业务绑定。对于大模型厂商来说,这样更便于他们向客户推荐AIGC相关增值服务产品。

在这个过程中,由于现在大模型落地还处于早期阶段,在基础大模型走向行业或场景大模型的过程中,需要通过大模型厂商和原来业务的核心客户共创,来训练模型达到理想的效果。因为特定的行业know-how,以及承载着行业know-how的数据在一个个具体的企业内部。

“目前大模型训练和落地具体场景的效果,需要企业来完成评估,因为企业才懂行业和业务。”阿里云展台的工作人员告诉亿欧TE,核心客户及其行业积累,已经是大模型厂商的重要资产。 

这就形成了当下大模型商业化中常见的共创现象。“作为企业客户,以前我们和厂商的关系更像是接力跑,厂商把完整的产品交到我们手中,我们来完成应用的下一程。但是现在不是这样,我们和厂商一起跑。”微盟AI产研负责人裘皓萍告诉亿欧TE。

同时,因为现在大模型落地处在共创阶段,在特定行业能够先做出垂直场景大模型应用标杆案例的厂商,未来在客户那里的优势会更强,这就导致现阶段面向行业做大模型解决方案的厂商还在发布相关大模型——或许近期我们还将看到市场上更多大模型发布。

容联云就是一个典型案例。7月8日在WAIC2023现场,容联云发布了面向企业应用的、垂直行业大语言模型“赤兔”,并发布容联云“生成式智能营销服一体化工作空间——机器猫”和“生成式一体化智能客服平台”。

容联云COO熊谢刚告诉亿欧TE,AIGC+智能营销是各大厂商都在落地的产品方向,为什么容联云还要再发布一个大模型,首先是因为有能力做。

目前国内的基础大模型和OpenAI发布的GPT4还有明显的差距,这是因为从算力、优质数据源等更底层就存在差距,“既然这里有一道不能轻易迈过的坎,那我们就选择降维,去产业里做一个参数量更小、同时有应用场景的行业大模型,成本也更低。”

其次是,容联云需要大模型生成式AI的能力来稳定客源,甚至成为企业下一个增长驱动力。

实际上,容联云在AI+智能营销已经做了很多年,不过效果始终有局限,“原来基于小模型做智能客户,它没有泛化能力,对业务变化的灵活性不够,需要人工不断地在后台去修正、填充信息,第一时效性不够,第二修正是无止境的。”现在基于大模型的生成能力,系统可以像人一样快速精准地应对多元业务场景,满足客户的需求。

基于此,熊谢刚认为,容联云做行业大模型不是从0到1,因为有过去的技术积累,加之目前市场上可选的开源大模型库,实际上是从0.5到1。

而现在能发布大模型的厂商,几乎都是最迟在去年下半年就监测到相关创新技术应用,并于去年年底或今年年初正式完成相关资源部署,所以已经算走在进度表上前列了。 虽然现在看到发布的大模型很多,但接下来可能还会有更多。

结语 

本届WAIC为期3天,其中最后一天是周六,这给很多在职人员提供了一次走近国产大模型厂商的机会。

在探展过程中,亿欧TE发现上半年ChatGPT的火爆出圈,让需求端也有企业负责人开始主动寻求新的解决方案,但有时企业也存在期待过高或错位的现象。

亿欧TE碰到了一件有趣事:一位从事制造业的廖先生一连逛了多个展台。他主管着亚洲十几个汽车燃油箱生产工厂,目前正在为燃油车产业链制造业人才流失,以及因为工人换代、生产过程中冒出的无数微小问题而烦恼。

廖先生提到,他希望将大模型应用在工厂生产和维修环节,成为工人的生产查询助手。而实现路径上,他希望让大模型直接处理工厂过去几十年沉淀的油箱生产维修数据,跳过人工的参数调整,落地辖区工人生产方式查询的场景。

但华为云展台的工作人员听到他这个诉求后回应道,直接跳过人工数据的清理和调参在当下还不能实现。并建议廖先生尝试逻辑更加直接的二维表问答形式或可满足需求。

显然,即使智能如大模型,到了实际生产中还是困难一堆。反而一个简单的“问答形式的二维表”就能搞定。

现阶段主要是大模型厂商在积极推动大模型研发和落地,对于很多个人用户、传统企业来说,实际上还处于初期了解的阶段。大模型的热度很高,但大模型厂商离普通用户和企业又很远,难免雾里看花。

而本届WAIC则很好的承担了链接公众和大模型厂商的搭桥作用。未来,随着大模型技术的不断迭代,应用的机器智能化不断完善,我们期待以大模型作为起点的人类技术变革奇点早日到来。

更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy