图片来源@视觉中国
文|商业数据派,作者|刘俊宏
4月10日,昆仑万维宣布联合奇点智源,共同研发了号称“中国第一个真正实现智能涌现”的国产大语言模型——“天工”3.5,甚至还注册了chatgpt.cn作为域名。
隔天,4月11日,昆仑万维就收到了来自深交所的关注函。要求结合行业政策风险、该项目研发进度、产品落地可行性、预计上线时间、市场需求情况、对公司财务影响等情况,说明“天工”3.5可能面临的风险,相当于是深交所在怀疑昆仑万维在“蹭热点”。
在4月17日,天工大模型开放了内部测试并做了直播演示后,效果并不太好。
在开场问过一些常见问题之后,在问到蒸包子问题时,回答效果开始不尽如人意。蒸一个包子需要10分钟,蒸10个呢?第一轮直接回答是10分钟;当再问100个的时候,却回答道因为蒸包子时间是固定的,所以还是10分钟。
同样的问题交给New Bing,很显然New Bing考虑到了问题中的陷阱,按照锅的大小做出了回答。
此外,在一些测试者在公开平台上上传的测试情况来看,天工大模型的问题,不仅是在逻辑,在表格上也不太严谨。测试者要求制作一个工资表格,天工大模型给出了案例和计算规则,但最后的结论(实发工资一栏)全部都是不正确的。
从当前展示结果上看,天工大模型的表现无疑是差强人意的。实际上,从昆仑万维宣布发布大模型之时,就值得细细推敲。
01 疑点重重的大模型
不论大模型能不能给出市场一个满意的答案,昆仑万维已经在股市上“赢麻了”。
2023年春节后开始,“数字经济热潮”从数据要素开始轮动,昆仑万维的市值就借上了AIGC+游戏的东风,如今其市值到现在已然翻了两倍有余。而现在,昆仑万维借着天工大模型准备再添一把火。
但如果细细思索昆仑万维大模型的真实性,有不少蹊跷。
首先,昆仑万维大模型的实力存疑。
第一是,按照昆仑万维在4月10日官方公众号的一份模型排位截图显示,其自研百亿级模型「瑶光」在2021年4月的数据表现领先其他玩家,并且在2022年12月的行业评测中仍处于领先水平。
如图所示,昆仑万维号称,2021年采用瑶光大模型训练的大语言模型“天工妙笔”,在续写、扩写、摘要等能力上都超过澜舟科技、智源研究院等几家AI公司的水平。
但实际上,这个能力与模型参数量相关,并不能完全体现算法水平。比如昆仑万维的为瑶光大模型参数量为140亿 ,而澜舟科技的孟子两个大模型参数仅分别为14~64亿。
另一边,大模型的发布背后应该是丰富的技术积累,可以大致用AI专利数去衡量。例如,在百度在线网络技术(北京)有限公司下面,会有文本生成方法、数据处理方法等相关技术专利。
但昆仑万维根本找不到相关的专利。经查询,在昆仑万维科技股份有限公司下面并未发现任何与大模型直接相关的专利,奇点智源下面不存在任何专利。如果将搜索条件放宽到奇点智源大股东关联的奇点智能,还是找不到任何专利信息。
其次,昆仑万维公司主体对AI的持续推进能力不足。
从财务角度来看,昆仑万维当前的资金不太宽裕。2022年报显示,昆仑万维账上货币资金+交易性金融资产-短期借款为18.82亿,除开账上可用资金,昆仑万维在应收、应付票据及应收账款之间存在8.22亿的缺口,换算下来,较为自由使用的资金在10亿人民币左右。
另一边,从开支层面来说,支撑AI最直接的就是算力设备,当前昆仑万维有用200张卡的训练集群,且已合计采购约4400万美金的硬件设备。事实上,按照现在主流对大模型的理解,200张卡只是杯水车薪,如果仅以文本生成对比,近似体量的例子是复旦大学研发,采用了128张卡、200亿参数“MOSS”。虽然名字蹭了《流浪地球》的热度,引得众人期待,但还是因为后续表现差强人意,最终“泯于众人”。
昆仑万维未来如果对标百度文心一言,约1000张卡的开支,从设备角度推测,昆仑万维短期内需要四倍4400万美元的硬件开支来弥补算力差距,这对应约12亿人民币,差不多是公司一年的净利润。再进一步,如果按照4月6号公司CEO方汉的谈话,认为如果要继续开展视频和图片的训练需要再翻10倍的算力需求推算,117亿人民币的长期开支差不多对应的是昆仑万维两年半的营收。
以上这还仅仅是硬件成本的推算。据国盛证券报告《ChatGPT需要多少算力》估算,GPT-3训练一次的成本约为140万美元,对于一些更大的模型,训练成本介于200万美元至1200万美元之间。以ChatGPT在1月的独立访客平均数1300万计算,其对应芯片需求为3万多片英伟达A100 GPU,初始投入成本约为8亿美元,每日电费在5万美元左右。
另一边,在AI模型转化的收入端,根据昆仑万维在3月24号对深交所的回复函表示:目前公司AIGC、人工智能等业务产品尚未产生实际收入,预计不会对2023年财务状况产生较大影响。这也就意味着,如果昆仑万维执行了AI模型的投入,公司将难以面对短期可能出现的亏损。
最后,昆仑万维大模型缺少训练数据。
通观市面上的国产大模型,其内在语料库基本都基于公司业务。例如文心一言基于百度的语料库、腾讯基于QQ和微信聊天语义库、阿里基于电商数据等,这些语料库不仅庞大,而且也都是互联网数据流通的高频领域。而昆仑万维的直接预料来源只有Opera浏览器,而Opera浏览器是昆仑万维在2020年10月完成收购的挪威公司。
纵然有直接购买训练数据集作为丰富语料库的解决方案,但这种方式,昆仑万维根本无法与其他大厂的云计算、数据标注、数据清洗等体系化能力相抗衡。毕竟初始语料库越丰富,模型的训练集就越好,语料库更新速度越快,模型迭代速度也随之加快。面对大厂在数据实力上的飞轮,可以预见昆仑万维的大模型最终还是会表现为落后一步。
以上问题,虽不能直接指出天工模型的存在与否,但来自技术、资金、语料库的种种限制无疑直接揭示了该模型的效果不会太好。
那么,昆仑万维又是为何要在当下的节点准备发布呢?
02 强行发布大模型,昆仑万维“急了”
从基本面上看,昆仑万维的确需要强而有力的新增长。
昆仑万维2022年实现营业收入47.36亿元,同比下滑25.49%,实现归母净利润11.53亿元,同比下滑2.35%,论盈利规模,这是昆仑万维2019年以来最差的财报。
昆仑万维的主要营收来自于社交和广告,其商业模式是通过向用户提供社交平台、搜索和游戏服务获取流量,再将流量转化成为广告的闭环,但现在这种流量变现的模式正在面临危机。
在Opera浏览器这边,业务则主要面向欧美、非洲及东南亚地区。业务在海外的部分更多,并且市场占比很小。
用户数量上,昆仑万维在2022年报中表示全球月活跃用户为3.24亿。但从相对值的角度观察,根据statcounter发布2022年3月-2023年3月,国内和国外手机浏览器市场占有率排名显示,全球opera浏览器的占比为3.06%,国内在PC端和手机端的占比均为“其他”,分别归类占比为8.31%和0.2%。
从业务的角度来看,昆仑万维的营收主要也来自海外(占比77.54%)。值得注意的是,从2019年以来,昆仑万维的境内业务营收就在不断下滑,2022年昆仑万维的海外业务营收增长7.15%,而境内业务营收下滑25.23%,未来预计昆仑万维极有可能在国内的营收及占比进一步下滑,这也意味着未来Opera直接收集的中文语料也将会越来越少。
纵然搜索业务在增长,但通盘看待昆仑万维的商业模式,维护用户留存的游戏、社交业务的下滑,无疑是非常危险的信号。
为了解决如此困境,昆仑万维的解决方案是风口投资,甚至被追捧者奉为“投资高手”。
2020年,昆仑万维收购了Opera浏览器;2021年,收购了海外社交平台Star Group;2022年喊出了元宇宙AIGC并入住了新能源储能领域(包括绿钒新能源、蜂巢能源、东岳氢能、纤纳光电、星环聚能等)。其中也不乏有项目收益颇丰,2020年参投公司DADA在美国挂牌上市;2021年心通医疗在港交所主板上市。接连的并购,为公司带来了高达39.34亿的商誉,占总资产比例为22.4%。
而现在,昆仑万维又将新的赌注下在了大模型之上。
以博弈论的视角,当前发布大模型确实是昆仑万维最好的选择。如果模型效果匹配市场预期,那水涨船高的估值,会为公司今后的投资带来金融工具的便利;如果模型效果不好,那就重回原点,一切就当无事发生。
不论如何,4月17日发布的天工大模型,不会是国产大模型热潮的终点,但一定是昆仑万维市值的转折点。
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App