AIGC:重新理解内容(语言)

1,122次阅读
没有评论

作者段永朝,信息社会50人论坛执行主席、苇草智酷创始合伙人、《智能科学技术》学报编委、杭州师范大学阿里巴巴商学院特聘教授。

本文转自段永朝读书。原文为2023年3月14日,参加首届TopAIGC+Web3创新大会发言内容。

 

AIGC(智能生产内容)与20年前的另一个概念遥相呼应,那个概念叫UGC。20年前,美国创新公司林登实验室推出的“第二人生”,率先使用了这一概念。2006年,《时代》周刊把年度封面人物,破天荒地授予了一个全新的群体:全体网民。

直到今天,UGC演化为PGC、数字人、元宇宙和AIGC。所不同的是,UGC是一场波澜壮阔的草根运动,而AIGC则完全来自于人工智能的一个古老分支NLP(自然语言处理)领域的技术创新,并悄然将内容生产的主体,从“人”转移到“智能算法”。

这些创新技术包括:贝叶斯模型、深度学习、循环神经网络RNN、深度神经网络DNN、生成对抗网络GAN、人工强化的反馈深度学习RLHF,以及注意力模型AM等等。

即将宣布的GPT4,据说有100万亿个参数。火爆不过2年的百亿、千亿参数的大模型,即将被提升1000倍,进入超大模型时代。这不禁让人再次回想起,OpenAI创始人兼CEO Sam Altman两年前提出的一个响亮口号:万物摩尔定律,即每十八个月全球智能资源数量翻倍,而衣食住行等生活物资的供给成本减半。

可以预期的是,巨量的智能体将呼啸而至,迅速占领内容生产的各个角落,并侵蚀传统白领、专家的专属领域。这个万物摩尔定律,今天已经通过AIGC的方式,在过去的几个月里席卷全球。

不过,一周前,95岁高龄的著名美国语言学家、句法理论创始人诺姆·乔姆斯基(Avram Noam Chomsky),与剑桥大学语言学教授罗伯茨(Ian Roberts)、科技公司人工智能主管瓦图穆尔(Jeffrey Watmull)在《纽约时报》上撰写的文章《ChatGPT的虚假承诺》指出,人工智能和人类在思考方式、学习语言与生成解释的能力,以及道德思考方面有着极大的差异,并提醒读者如果ChatGPT式机器学习程序继续主导人工智能领域,那么人类的科学水平以及道德标准都可能因此降低。

乔姆斯基的观点,让很多从事自然语言理解的科学家和技术工程师们感到费解。在他们看来,乔姆斯基应该是AIGC的思想鼻祖之一。对他们来说,计算语言学和形式语言学的努力方向,就是用良好定义的形式语法和规则,构建不同的语言模型,从而在句法分析、机器翻译、词性标注、语音识别、手写体识别等领域,利用计算机强大的数据处理能力,获得自然语言的理解、处理和应用。

AIGC:重新理解内容(语言)

 

OpenAI的方法论,无非是将传统自然语言处理中的“手动编码规则+字典查找”的两阶段模式,转化为深度学习的生成式规则,不再纠结于人类语言的不同语法结构,而是直截了当地运用大规模、超大规模数据集展开训练和预处理,并加入了模仿人的认知注意力的所谓注意力机制。

但是今天我们看到的AIGC,虽然号称深化和拓展了“自然语言理解(NLP)”,其实它既不“自然”、也不“语言”、更不“理解”。

按照主流语言学家的看法,所谓自然语言首先是针对语音、口语的,书面语只是口语的某种载体;AIGC所说的“语言”,其实背后只是某种语言的处理机制,即算法。至于理解,就更谈不上。甚至ChatGPT,也不是Chating,它并不“聊天”,它只是“typing”(敲键盘)。

AIGC所声称的基于形式语言的语言模型,其思想可以追溯到数学的希尔伯特纲领(1920)、罗素和怀特海的《数学原理》(1910)、卡尔纳普的《世界的逻辑结构》(1928)《语言的逻辑句法》(1934)、图林的有限自动机(1936)、乔姆斯基的《语言理论的逻辑结构》(1955)等。这些思想中一个重要的共同点,就是假设纯粹的形式演算可以表征世界。

那么问题来了,既然ChatGPT等众多的语言模型中有乔姆斯基创设的句法理论,乔姆斯基反对的到底是什么呢?在我看来,乔姆斯基反对的是那种不分青红皂白的、大肆的数据处理,特别是采用大量只顾计算、但无法解释的概率统计方法。

在一周前发表的那篇文章里,乔姆斯基等指出:“人脑不像ChatGPT及其同类产品那样,是一个笨重的模式匹配统计引擎,狼吞虎咽地处理数百兆兆字节的数据,并推断出最为可能的对话回应,或为科学问题提供最可能的答案。相反,人类的大脑是一个极为高效甚至优雅的系统,只需要少量的信息即可运作;它寻求的不是推断数据点之间的粗暴关联(brute correlations),而是创造解释。”

虽然“蛮力计算”是人工智能领域久已有之的传统,但像这样完全撇开中间层次、轻视语法与句法分析、完全屏蔽语义理解的蛮力计算方式,让内心偏爱语言的优雅、诗性和隐喻的学者们心生厌恶,并感到被冒犯。但今天看来,这种反对意见似乎难以抵抗在蛮力计算中获得丰厚回报的人工智能技术专家们,心中那种难以掩饰的兴奋与躁动。

隐藏在新一波人工智能浪潮背后的信仰,是大规模数据处理竟然能够让技术专家们轻易绕过复杂的理论建构,直截了当地利用计算和存储成本急剧下降的技术优势,实现所谓“端到端”的语言处理,并且看上去漂亮地预测“下一个词语”、“下一个句子”,乃至生成一篇看上去辞藻华丽、书卷气十足的文章,甚至包含音视频合成的作品。他们不再理会语言对情感和思想的依托,不再理会人类对话背后蕴含的对情感纽带、因果联系、存在意义和解释性的要求,只要能给出想要的结果,一切都是好的。

乔姆斯基的批评,在高奏凯歌的创新者看来已经无足轻重,每天数以千万计的对话、聊天在各种智能算法中流入流出,人们热情期待未来机器人创作诗歌小说、写作公文论文、编码游戏设计娱乐大众的场景。

但是,对中国人来说,特别对中国语言学界、人工智能界来说,乔姆斯基的批评却有着重要的启示。

毋庸赘言,AIGC背后的技术原理中,有两个值得关注的倾向:一个是算法建立在主要针对英文的句法分析理论的基础上;另一个是符号形式与语义之间的分离。如果这两个倾向在中文语境下不能得到深度的分析和理解,那么中文版本的AIGC不光是鹦鹉学舌的产物,更重要的是与这一强悍的现象级应用,所宣扬、彰显的文化属性有关。直白地说,与语言的民族性有关。

语言学家萨丕尔和他的学生沃尔夫在大约100年前,就提出语言、思维、文化之间相互关联、相互影响的假说,被称作萨丕尔-沃尔夫假说。这个假说认为:真实世界很大程度上是建立在群体的语言习惯之上。萨丕尔指出,“语言与我们的思维习惯不可分解地交织在一起,换言之,它们是一回事。”

使用主谓结构来分析中文语言,始自400年前明代科学家李之藻,在葡萄牙耶稣会传教士傅泛际的协助下翻译的亚里士多德的逻辑著作选集,中文名称为《名理探》,将subject和predicate分别翻译为“主”和“谓”。1898年出版的《马氏文通》,借鉴主谓结构分析中文语法现象。这一做法,长期以来渐渐成为汉语语言学分析的主流方法之余,一直以来也不乏中国语言学家的质疑。

近现代中国语言学家赵元任、王力、吕叔湘、朱德熙等的研究表明,汉藏语系与印欧语系的结构有很大的不同,这个不同不是表面的,而是深层次的。主要体现在印欧语系的主谓结构、名词-动词分类法,并不适用于中文。

中国哲学家、政论家张东荪在1936年撰文指出,主谓结构是西方文化的基石。在古希腊思想中,逻辑与语法是同源的。一部西方哲学史其实就是主谓关系的思辨史。

当代语言学家、社科院学部委员沈家煊先生,在4年前出版的《超越主谓结构》中指出,在汉语表达中,无主句、流水句、对句比比皆是,这是中文语言保持鲜活生命力的力证。

沈家煊指出,印欧语系的主谓结构,注重词语完形,注重细致分析主语谓语之间的依附关系,从而形成大量围绕词性、句法、语形的语言理论。形式语言学之后流行起来的生成语法,其中心原则就是强调谓语必须有一个主语;功能语法学派虽然不注重主谓语的分别,但强调主谓语的功用。

在今天看来,过去100年来这一批中国的语言学家,在风云激荡的时代变迁面前,依然坚持汉语不存在主谓语结构,或者说中文的主谓语结构只不过是一种比附的见解,依然意义重大。这里面蕴含的深刻思想,在今天面临AIGC大爆炸的年代,值得我们重新理解内容、重新理解语言。

在1916年瑞士语言学家索绪尔出版《普通语言学教程》之后,所指、能指,语言、言语,历时性、共时性等概念,成为重新看待语言的思想指南。但是,这一思想指南不可避免地带有印欧语系的本质特征,这就是“所指和能指的分离”。

所指和能指的分离,表明印欧语系的语言学研究,从此进入了一条完全不同的路线。这条路线就是语形和语义的分离。从100多年前西方学术思想的发展历程看,这条路线又有其自身的合理性。这一合理性从19世纪到20世纪的数学思想中得到充分的体现。

1872年,德国数学家菲利克斯·克莱因发表的埃尔朗根纲领,其用意在于用群论和对称性的思想,统一欧几里得几何、射影几何、拓扑几何和非欧几何。埃尔朗根纲领在50年后被他的思想弟子希尔伯特以公理化的方式发扬光大。希尔伯特在1920年提出数学的形式主义纲领,继承康托尔的集合论思想和数学公理化思想,彻底斩断符号和意义之间的纽带,从而开启了现代数学形式主义的新篇章。

可以说,希尔伯特的公理化主张影响了几乎所有的学科。英国语言学家莱昂斯,在40年前回顾英美语言学发展的过程中指出,英美语言学一直受制于唯理智论者的偏见,以为语言只是或基本上是表达命题思维的工具。

将语言看作表达命题思维的工具,是印欧语系主谓结构的必然,也是语形与语义剥离的必然。从此以后,一个口号在过去的20年里就遍布天下,这个口号叫做“一切皆计算”。

在这种欧陆形式科学、公理化数学、抽象化符号学的影响下,在英美语言哲学的支配下,计算机学科、人工智能学科可谓中毒颇深。大数据、GPU、DNN、深度学习等纷纷聚焦相关关系,热衷于海量数据的符号演算、概率计算,以至于图灵奖获得者、贝叶斯网络的先驱朱迪亚·珀尔,在5年前出版的新著《为什么:关于因果关系的新科学》中大声呼吁,AI需要从这种计算崇拜、相关分析崇拜中解放出来,重新回到因果关系的轨道上来。

过去100年来,一部分中国语言学家如赵元任、王力、吕叔湘、朱德熙、沈家煊等,在风云变幻的时代动荡中,也始终坚持这样一个信念,就是汉藏语系与印欧语系有着本质的不同。沈家煊教授将其命名为“对言格式”,汉语以对为本,比如四字格、上下句、互文回文、对仗排比、重言叠词、顶真续麻、起承转合等等。在这些丰富的对言格式下,中文表现为“音形义用”四位一体的“大语法”。

这里举一个例子:“对”这个字,在英文中就很难翻译,没有单一的对应词。《现代汉语词典》中列举了15种释义,包括对话、对答;相对、对于;对待;对比、对照、核对;正确、对头、正常;对称、对应等等。

“对牛弹琴”、“隆中对”、“对不住”、“对不上”,“对点儿开水”、“说的对”、“配对儿”,这里都没有单一的英文词语相对应。

在中文里,right并非简单的对错之“对”,而是对应之“对”。内容要对、形式要对、寓意要对、语气要对、语境要对,都要对得上,才能说Right。

《说文解字》里,“对”的解释是“譍无方也”。什么意思?就是“对”无一定之规。《诗经·大雅·桑柔》里也说:听言则对,颂言如醉。

所以说,对东方人来说,语言本身就是对话,是人与人、人与自然之间亲密无间、旨趣盎然的对话。中国的语言是鲜活的,充满生活气息的。对言,是时时处处传情达意的对话过程,并不是将意义抽离场景的过程。其实,任何口语都有这样一个共同的特征,只不过形式语言学、计算语言学,因为秉持符号表征与意义剥离的思想,走到了一条不归路上。

需要看到的是,索绪尔之后的语言学家中,也有很多不满语印欧语系主谓语结构的学者,多方求索。比如法国罗兰·巴特的结构主义、德里达的解构主义、俄罗斯学者巴赫金的对话理论、法国学者克里斯蒂娃的互文性理论等,但这些理论流派多兴盛于社会学、心理学、语言学、传播学、哲学等的专业圈子里,在计算理论中并没有看到更多的反响(这一点需要深入研究为什么),这是一件很奇怪的事情。难怪美国语言学家布龙菲尔德,在100多年前就断言:对语言主语、谓语的性质,语言学家根本没有讲清楚。

回过头来说,汉语其实是音形义用一体、传情达意具足的鲜活语言,把这种鲜活的语言,硬塞进贝叶斯算法、循环神经网络、注意力模型中去,不管三七二十一,让机器胡吃海塞、狼吞虎咽,耗费巨大的算力,就为了让机器照葫芦画瓢地超越人脑的有限算力,这是智能呢,还是大肆祸害数据资源呢?这是个值得深省的问题。

最后,说几句与π有关的话。今天是π日,据说最先进的超算已经可以计算到π的十万亿位,这一计算过程不可能结束。2000多年前中国古代数学家就知道粗略地说“周三径一”;准确的计算在东汉刘徽发明割圆术之后,用3072边形算出π=3.1416,但是,认识到π是一个无理数、超越数,则是一个漫长的过程。1761年,瑞士数学家约翰·朗伯证明π是无理数,1882年德国数学家林德曼和威尔斯特拉斯证明π是超越数。

这件事说明什么?说明就算再强大的计算过程,它也只是给出更多的π的计算位数,但无法洞察到π是无理数、超越数这一思想本质。

AIGC是一个充满激情的事业,但需要更多的思想家、企业家和领域专家,回到鲜活的语言本身,回到充满诗意的、生活化的语言,特别是认真研究汉藏语系、研究中文的语言魅力。只有这样,生机勃勃的AIGC才会迎来真正的春天。

 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy