产业大模型,从北坡爬“AI珠峰”

549次阅读
没有评论

你们的大模型具体怎么跟行业结合?怎么进行商业落地?

一位参加了2023 WAIC的投资人告诉品玩,这是他在刚落幕的世界人工智能大会上频频听到、也是最关心的问题。在超过400家企业参与、展馆面积高达5万平方米的会场中,大模型充斥在视线所及范围内的各个角落,也夹杂在现场台上台下几乎所有的交流对话中。据悉,WAIC现场仅大模型参数在10亿级以上的AI厂商数量就超过30家。

然而与ChatGPT诞生以来引爆的初轮AI热潮不同,人们除了讨论算法、算力、数据等技术核心议题之外,开始更为关注大模型如何在具体的垂直行业中落地。

这在短短半年时间里经历了激烈的百模大战的国内市场尤为明显。

科技部新一代人工智能发展研究中心的《中国人工智能大模型地图研究报告》显示,迄今为止,中国已发布7910亿参数规模以上的大模型,大模型之战逐渐步入后半场,更多人开始关注大模型与实体产业的结合,企业也接连展示其产品的应用场景。

也因此,国内头部科技企业的发力点从通用人工智能大模型,转向行业大模型,比如腾讯在6月中旬发布了一站式行业大模型精选商店腾讯云Maas,而华为也在WAIC举办期间推出了赋能千行百业的盘古大模型3.0,可以说继AI For Science之后,大模型已然开始步入AI For Industries阶段。

品玩获悉,在2023京东全球科技探索者大会暨京东云峰会上,京东重磅推出了自研产业大模型言犀。言犀大模型融合了70%的通用数据与30%数智供应链原生数据,主要面向知识密集型和任务型场景,落地解决真实的产业问题。

很显然,通用大模型与产业大模型,已引起了国内头部科技公司AI战略的分野,虽然两者并不是对立关系,但不同的路线与方向会令其驶向不同的远方。

AI大模型的路线之争,轮到“产业派”出招了?

GPT为代表的生成式AI技术,无疑开启了人工智能领域新一轮的科技创新周期,而作为这轮科技创新底座的大模型自然成为了头部大厂、学术科研机构,以及初创企业们争相入局的行业。

一个较为明显的趋势是,自从OpenAI推出ChatGPT后,无论在硅谷还是在国内市场,科技公司们最初都将重心放在通用人工智能大模型的研发上,百度、阿里、360、科大讯飞、商汤等一系列大厂都发布了自己的通用大模型,而包括搜狗创始人王小川、美团联合创始人王慧文,以及创新工场董事长李开复在内的知名企业家,也都高调入场通用大模型。

虽然通用人工智能目前尚未有一个全球通用的精确定义,但人们对其的理解大致为:能够完成人类所能够完成的任何智力任务的人工智能,而通用大模型则指能够处理多领域、多任务的大规模预训练模型。

ChatGPT率先引爆的C端消费级市场来看,通用大模型的确具有强大的用户吸引力,它的底层逻辑是所有使用者都可以与一个基于千亿级参数训练出来的、已经具有理解与推理能力的智能大脑进行交流。在智能涌现的时代中,通用大模型的适用性较广,能啃下这块硬骨头的玩家势必会在这轮科技创新周期中,占据至关重要的战略地位。

这也是为什么国内市场的百模大战中,相当一部分竞争者都瞄准通用大模型发力的本质原因。

然而ChatGPT火爆全球大半年、百模大战也逐渐步入后半场之际,人们对生成式AI带来的技术革新的激动与新奇渐趋平复,无论是C端用户还是B端企业,都在大模型的落地问题上画了一个大大的问号。

相比于大模型由于算力成本高昂、数据信息泄漏风险高,以及政策监管严格等因素所导致的C商业化进程缓慢,大模型面向B端企业、满足特定行业场景技术需求开始有了显著的进展与成效。

如果说先落地AI大模型领域当下的共识,那么产业大模型则是实现这个目标最快捷的一条路径。

早在今年210日,京东云就先于国内一众科技企业宣布正在筹备产业版大模型五个月之后,言犀大模型终于在JDD大会上官宣

事实上,大模型并非是这轮科技创新周期诞生的产物,京东、百度、阿里、华为等国内科技大厂已在这个方向上布局多年。

以京东为例,其在2020年成立的探索研究院最初设定的三个方向就是:大模型、可信的人工智能,以及量子计算,京东2021年推出十亿级模型K-PLUG,在2022年推出百亿级模型Vega,而今天JDD大会上发布的言犀大模型的参数则达到了千亿级。

这个融合了生成式AI技术的新一代产业大模型,围绕内容生成、人机对话、用户意图理解、信息抽取,以及情感分类等几大任务,在同一个基座大模型的基础上、针对零售、物流、金融、健康等垂直领域模型进行精调。

出席JDD大会的京东集团CEO许冉在现场提出了一个京东思考和评判大模型价值的公式:

大模型的价值=算法×算力×数据产业厚度的平方。

这个公式代表着京东除了追求技术的先进性之外,更加关注技术能在多少产业场景中切实落地应用,能为社会创造多少真实的价值。

产业大模型,从北坡爬“AI珠峰”

在近期的一次媒体采访中,京东集团技术委员会主席、京东云事业部总裁曹鹏告诉品玩,京东之所以聚焦产业大模型,本质上是基于自身作为新型实体企业的属性,即始终保持对前沿技术的探索、重点围绕供应链场景开展有秩序的创新。

对有些企业来说,训练一个通用大模型就是他们的目标,但是我们看法不太一样,我们认为技术本身是没有办法直接产生价值的,它只有放到场景里才能产生实际价值。

为了加速人工智能技术在产业端的落地,京东在2月宣布推出产业大模型后的近半年时间里,一直在内部寻找在哪些产品、技术、场景里可以真正将它的能力与价值发挥出来。

品玩还了解到,在GPT浪潮兴起后,京东将大模型提升为整个集团的重要项目,大模型团队横跨京东所有BG/BU抽调所需的资源和人力。

目前京东几乎所有的前端业务都提出希望借助产业大模型来进行降本增效,言犀大模型当下选择先京东内部几个高复杂的场景中进行大规模实践,在内部取得明确的成果和扎实的应用后,计划于2024年上半年正式对外开放产业大模型的能力。

产业大模型,从北坡爬“AI珠峰”

谁能做好产业大模型?

无论是通用大模型还是产业大模型,其共同之处都是让开发者能够以更低成本和门槛,在各个场景中实现AI技术的普惠。而作为底座的大模型在产业端的落地应用,不仅需要与场景深度融合的模型体系,还需要能打通全链路的工具与平台,以及能激发创新的开放生态。

从大模型研发与未来成长所需的条件来看,拥有充足资金、算力、人才、数据的科技大厂们,已然开始跻身国内外大模型的第一梯队。

产业大模型,从北坡爬“AI珠峰”

数据是训练大模型的核心生产要素。大模型之所以称之为,就是因为它庞大的数据量和众多复杂的参数,在过去5年间,AI大模型的参数量几乎每年都在呈几何级上升,更不要说继文字生成AI技术之后,国内外都在努力打造融入图像和音频的多模态大模型。

而对于产业大模型来说,数据更是一直以来的致命难题。

训练和优化大模型的过程中,需要极多的高质量数据,这些数据必须经过清洗和预处理来消除噪声、填补缺失值以保证其可用性。将大模型能力迁移到产业领域中,则需要调优与二次训练,要知道B端的产业数据多是场景数据,是从业者在行业的KnowHow与真实交互数据,这些场景数据由于样本少、数据分布不均,极难获得。

因此这就要求研发产业大模型的厂商,要有不断获得、甚至具备自己生产场景数据的能力。

比如卡位产业大模型的京东,就在其过去20年的发展中,通过完善的供应链,参与到零售、物流、健康、金融、工业等领域的上下游中,持续积累了足够多的行业场景数据,而这部分场景数据占据了京东产业大模型训练数据中至关重要的30%

在近期的媒体访谈中,何晓冬博士表示,与外界印象中谈到产业大模型,大家第一反应是做个小模型就可以不同,他带领团队研发产业大模型时发现通用数据是必不可少的,它提供了背景常识性的知识,所以我们产业大模型70%左右用的是通用大数据,而剩下30%是我们多年沉淀下来的场景数据

事实上,当下这轮科技创新周期中、基于GPT技术打造的产业大模型,与之前业界所认知的行业模型有着本质的区别。

以往行业大模型的训练与优化,由于缺乏对通用数据的使用,导致大模型的泛化性较差,基本上每换一个场景都要重来一遍,无形中提高了研发成本;此外,在B端用户的使用体验中,垂直小模型只能与人进行固定领域的交互,即便是跨界领域非常基础的常识问题也无法回答,体验感较差,而京东产业大模型这种将通用数据和场景数据有机结合的方式,则为产业大模型的研发提供了新思路。

产业大模型,从北坡爬“AI珠峰”

除了数据之外,算法和算力对大模型训练和优化也很重要,而正如场景数据才是产业大模型真正需要的核心生产要素一样,后两者在新一轮AI技术浪潮中,也适应产业落地需要做出了各自的升级迭代。

算力一直是大模型研发的基石,只有具备较高的计算和存储资源,大模型才能完成对整体模型神经网络的训练建构,而算力很大程度上由芯片决定在此基础上,京东云也在不断地布局各类算力的芯片,一方面是为我们下一步模型训练做准备,另外也会对外提供一些行业算力的需求,言犀大模型也是基于京东云的算力打造出来的,曹鹏表示京东也很重视异构算力的国产化替代芯片,正在尝试包括寒武纪、昇腾在底层设施上的兼容性。

此外,虽然算法在AI三要素中研发难度相对较低,且当前各大科技企业都有自己大模型的算法路径,同时外部也有众多开源项目可供参考。但在大模型时代中,单点算法的研发与调优已不再是AI争夺战的焦点,即便是OpenAI发布的ChatGPT,其底层算法也延用了谷歌的Transformer架构

对于大模型来说,以产品形态为最终目标的算法技术体系,才能真正影响到C端消费市场和B端企业用户的心智,ChatGPT在全球风靡的盛况就是最好的证明。

在成体系的算法的打造上,京东产业大模型的整体架构,从基础层到模型层再到MaaS,都是可以开箱即用的。更具体些说,京东投入了大量的算法资源用于模型部署和优化,先做大模型再量化压缩,并且同时进行剪枝部署,使得高并发量和短延时均被满足。

可以说,京东在场景数据、算力集群,以及成体系算法几个产业大模型重要弹药库上,都已有了充足的储备。

所以,产业大模型究竟怎么落地?

最后也是最重要的,产业大模型究竟如何落地?

目前来看,京东、腾讯、华为等主要面向行业打造大模型的企业,都给出了不尽相同的答案。选择从MaaS (Model as a Service)切入产业大模型领域的腾讯,似乎更看重被称之为未来云厂商基础能力的技术中间层,凭此面向外部企业提供预训练、精调,以及应用开发在内的解决方案;而华为则以一种工程改造的方式将大模型进行了完全的分层解耦设计,以快速灵活地适配千行百业中的场景需求。

而对于将自身定义为新型实体企业的京东来说,尽快将产业大模型落地、并且切实地看到AI技术围绕供应链创造的价值,才是其追求的终极目标。

品玩获悉,京东产业大模型已围绕言犀AI开发计算平台、京东物流超脑、智能零售客服与导购、健康助手及辅助诊疗、AI增长营销平台,以及等核心供应链场景展开落地实践。

以物流供应链行业为例,这是个与实体经济联系极为密切、重资产重运营的领域。在AI技术浪潮到来之前,物流网络建设更多是基于物理世界的运营自动化,这在移动互联网时代已完成了一定程度的数字化,如果说物流供应链已走过了流程技术驱动1.0、信息技术驱动2.0、数字技术驱动3.0的阶段,当下它正在产业大模型的助力下步入智能技术驱动4.0阶段。

产业大模型,从北坡爬“AI珠峰”京东物流超脑

据京东集团副总裁、ACM/IEEE Fellow、京东物流技术负责人何田介绍,当下这轮科技创新周期,京东物流超脑应运而生,京东物流也在探索实践大模型技术和数字孪生技术深入融合。

具体来说,当京东物流决定要建一个仓时,决策者把目标设置清楚后,产业大模型会自动生成相应的方案,比如仓库应该摆放多少货架、货架间的距离是多少等,而后再通过数字孪生技术来验证大模型提供的几种方案的可行性与落地价值。

这种由产业大模型和数字孪生相辅相成的京东物流超脑,一方面可以借助生成式AI技术弥补人工由于不善于处理大数据、全维度下的信息判断,实现物流行业的进一步降本增效;另一方面也可以避免大模型生成的解决方案存在不适用于实际业务的情况,不同于C端消费级市场对生成式AI产品的包容性,B端实体经济对精准度的要求是产业发展的根基

虽然仓网选址和设计在物流供应链行业里是相对低频的一个应用场景,但是作为影响供应链全链路的顶层设计,这个环节起着至关重要的作用,当下单纯靠人工或是智能都无法达到最佳效果,因此产业大模型在物流供应链环节的落地现阶段多体现为人机协同上。

“物流仓储行业每天都做的事情里面还有质量检测,从仓里的一系列操作,到调车、运输、终端配送,流程至上千个,这都需要人来盯。”据何田透露,京东物流也在尝试用AI技术来实现供应链的质量检测。

产业大模型,从北坡爬“AI珠峰”

此外,像京东物流营业部的选址这类频次高于仓网选址、但低于日常作业的决策,当下已步入由产业大模型负责的阶段,“微观决策开始自动化,宏观决策交由人机协同”。

不仅是物流供应链,京东产业大模型也在渗入其核心零售业务的多个使用场景之中。品玩了解到,包括智能导购、智能客服,以及内容营销等京东零售前端业务都已接入产业大模型。

其中,智能客服是京东产业大模型在零售领域的重要技术革新试验田。以往智能客服在与用户对话的场景中,后者会觉得交互体验非常生硬,从而转向人工客服的比率较高。但京东将产业大模型应用于智能客服的任务型对话中,测试显示对话的泛化性和语义理解水平都得到了较大提升。

我们内部从最底层技术数据测试来看,产业大模型应用以后客服系统对长尾用户意图的感知准确率有极大提升,错误率降低了一半以上。而在对话维度上,产业大模型也将问题比例降低了超过30%何晓冬博士表示,AI产业大模型给零售具体场景带来的降本增效作用是直观可见的。

更具AI时代想象力的是,京东产业大模型也加速应用在零售搜索和推荐系统的引擎中,之前用户是通过搜索框输入关键词、在推荐列表的海量商品中自行筛选,而在生成式AI技术渐趋成熟普及后,未来的零售搜索推荐将演化为交互模式。

我们下一步的重点是同品识别,比如用户搜一个商品,目前京东零售平台会推荐各个不同款式、各方卖家的SKU,但对用户来说体验不是很好,我们正在试图让产业大模型去识别上亿个SKU,未来用户再搜索时,就可以看到按照价格、商家模式、品牌等维度筛选展示的产品。

京东集团副总裁、零售技术研发与数据中心负责人尚鑫告诉品玩,以零售同品识别为例,产业大模型对零售行业运营效率的提升与经营成本的节省,会让消费者购买到的商品性价比越来越高。自去年开始,京东就将低价列为集团三大战略之中,产业大模型的研发与应用虽然还在初期阶段,但长远来看将对低价策略起到不可小觑的赋能作用。

结尾:

从京东推出产业大模型追溯其在人工智能领域的技术探索路径,能看到自2017年刘强东提出技术、技术、技术的理念之后,京东过去8年时间里一直致力于用技术打破与重建供应链领域的商业模式。

2018年京东AI研究院建立时,其最初的发展布局是:百分之七八十由产品驱动,以技术在行业落地为目标;百分之二三十面向未来,由前沿技术驱动。

由此,2020年京东发布了言犀平台,正式迈出AI技术进行严肃商业化的第一步,当时言犀更加注重人工智能对电商领域的理解能力;2022年开始,京东将数字人所具有的语音和视觉能力融入言犀,聚焦人工智能在产业端的交互能力。2023GPT技术引爆了大模型行业,京东也在多年技术积累之上推出言犀大模型,主打人工智能在整个供应链生态中的生成能力。

京东在人工智能领域的技术探索,不断追随着科技创新周期的脚步,但却从未脱离产业落地的真实场景。

人工智能技术还在发生着日新月异的革新,京东产业大模型在对内进行业务提效、对外赋能行业客户之外,也有着更长远的技术理想:

大语言模型让我们看到了AGI(通用智能)的希望,AGC(人工智能内容生成)的普惠下一步一定要走向多模态,不仅是语言,还要把语音智能、视觉智能、交互智能综合起来,我们目前已经看到了语言大模型的涌现能力,下一步是不是可以期待多模态层面上的智能涌现。

多模态的智能涌现或许需要十倍甚至更大的模型数据、算法,以及算力,目前还没有哪个科技企业真正将其做好,但作为全球人工智能领域最早开始研究多模态技术的科学家,何晓冬表示这将是京东探索研究院未来聚焦的重要方向。

这还是一个星辰大海的理想,但我们确实在努力实现它。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy