沈向洋丨通用大模型时代重新思考人机关系

点击蓝字

关注我们

沈向洋丨通用大模型时代重新思考人机关系

沈向洋

香港科技大学校董会主席、美国国家工程院外籍院士

3月23日，“2024全球开发者先锋大会”（GDC）在上海徐汇开幕。美国国家工程院外籍院士沈向洋发表《大模型时代的机遇与挑战》演讲。他表示，大模型将横扫所有垂直行业，并且如果要达到通用模型的性能，都会去到万卡、上万亿参数的规模。他提到，未来，个人化的大模型也将是非常有意思的方向，而将个性化参数与云计算和端设备相结合，将开创出极具价值的新局面。

沈向洋丨通用大模型时代重新思考人机关系

对于广受热议的以大模型为代表的AGI（通用人工智能），他提出了5点思考。

第一，人机关系需要重新被思考，因为技术创新的最终目的是帮助人类。第二，随着通用大模型、行业大模型、企业大模型、甚至是个人大模型的发展，大模型将横扫所有垂直行业。第三，算力将是大模型的重要门槛。第四，AI技术正在经历与社会的融合。从冲击到磨合到融合的过程，与个人、企业、政府都息息相关。最后，沈向洋指出，虽然AGI蓬勃发展，但是深度学习理论仍非常欠缺，大家对智能的本质尚无清晰的认识。

以下为演讲全文，略作删减：

今天非常高兴回到美丽的上海，与大家交流我在人工智能、开发和技术等方面的心得。前面的发布非常振奋人心。我今天讲的题目是大模型时代的机遇和挑战。

对于AI开发者而言，上海是不二之选。刚才我看到“模速空间”里，很多公司新的大模型技术非常激动人心。

我首先介绍一下最近大模型的整体发展和自己的几点体会。

第一，过去这几年大模型的发展非常迅猛，风起云涌。最近开源社区的活力、生命力非常强大，这毫无疑问。今天的会上，非常强调开源模型的重要性，如Llama。我们要抓住这样的机会，让国内的整个开源生态越做越好。

过去这段时间，有三件关于大模型的事情让大家大为震撼。

第一件事情是文生图。以前我们说，“一图胜千言”。

沈向洋丨通用大模型时代重新思考人机关系

这是我非常喜欢的一张照片，也是第一张登上了美国杂志的人工智能画的照片。这是Cosmopolitan杂志的宇航员封面图，用Open AI的DALL-E2做的。当时给系统出的prompt是：在浩瀚的星空中，一位女宇航员昂首阔步地走向这个广角镜头。就是这样一个简单的提示，可以做出这么了不起的照片，大家当时都非常震惊。

了不起的技术发展带给了我们很多社会方面的思考。在没过多久，一位德国摄影师用AI技术生成了这样一张照片，投稿给一个摄影展，然后得奖了。其他摄影师觉得照片看起来像一个真的摄影作品一样，而且是一个非常好的作品。但是这个摄影师拒绝领奖，因为他觉得不好意思，这是AI做出来的作品，不是他做出来的。这带给我们很多思考。

沈向洋丨通用大模型时代重新思考人机关系

（德国摄影师作品）

第二件事情是ChatGPT。在文生文中，提示语言可以产生“一句顶一万句”的效果，问一句话可以给你很多非常好的答案。甚至要来上海做演讲前，我问它，我来参加全球开发者大会应该谈些什么？ChatGPT可以给出非常好的框架。现在我见领导之前会经常问它，见领导之前应该说什么？

其次是Sora的诞生。以下这个视频的提示词是，在悬崖上的土路上，尘土飞扬。

沈向洋丨通用大模型时代重新思考人机关系

（视频截图）

如你们所见，效果非常震撼。这个视频非常高质量，而且是形成了一个长视频。这只是他们（OpenAI）发布出来的其中一个例子而已，还有很多这样的例子，大家都很受震撼。目前Sora还没开始对公众正式开放。相信国内已经有很多单位在做这样的事情，下半年会看到一些类似的系统面世。

大模型这几件事情问世后，国内已经有非常多的公司、开发者在做这些方面的工作了。有一个数据表示，全中国大概有两百多家做大模型的公司，所以叫“百模大战”。我觉得更像是“群模乱舞”（笑）。

大模型对开发者和做科研的人而言，是很振奋的事情，因为它带给了我们机会。实际上，你要把科研做好的话，创新是非常重要而且很有影响力的。那如果从这个角度来说，现在已经有这么多震撼的突破了，开发者可以朝哪一个方向思考接下来最大的技术机会在哪里？

从短期，甚至是长期而言，我个人觉得其中一个可能的方向是多模态的问题。为什么能做出Sora？Sora做出来后，以后3D的东西也会（推出得）很快。

今日，以Open AI为代表，技术上是把不同模态分开来做的。比如说，Open AI做了什么？他们内部肯定有两套体系，一套体系是从DALL-E文生图延展到现在的Sora、文生视频，整体走的是Diffusion的技术路线。而文生文走的是Transformer路线。这个之所以难做，是因为做视频的时候，你只是去预测下一个像素，而做文本的时候，是预测下一个token。到现在为止，这两条线路还没有完全统一下来。相信接下来这个领域里，中国的开发者、世界的开发者很快会有一些突破。

说到这里，简单介绍一下阶跃星辰的例子。他们在多模的理解方面做得相当优秀。

比如第一个例子里，是一位妈妈在看手机，小孩躺在地上打滚。这张照片叫“当代小朋友的无效技能”，不管怎么闹，他妈妈都不理他。多模理解得非常不错。

中间的例子是平面几何问题。比如画了一个X，边是X+15，面积是100，X算出来是多少？第三个例子是法律方面的问题，是判断一个事情有没有违反中国的广告法。

模型要有对这些概念的理解力，才能做出这样的内容。所以在这方面，垂直行业有很多机会。刚才财跃星辰发布的大模型，已经在国泰君安的场景有很好的落地。这是非常振奋人心的事情。

大模型几乎改变了一切。而除了大模型的技术突破，产品的设计也非常重要。举一个例子，在深圳的IDEA研究院过去四年在做一个产品叫“ReadPaper”，理念是“让天下没有难读的论文”，帮你读科研的论文。我们之前就做得挺好，大模型出来后，我们看到了更好的机会，做了相对垂类的大模型，接进去以后体验就更好了。

当今这个通用人工智能的时代，我们的机会到底在哪里？大家一直讨论的，都是同一个词，就是AGI，以大模型为代表的通用人工智能。那么，我们接下来应该怎么思考通用人工智能这件事情？

我简单分享五个方面的思考。

思考1：重新思考人机关系。大模型的问世“强迫”我们重新思考人机关系。我们要想，ChatGPT给我们带来的冲击里，到底有多少是机器智能的发展带来的？有多少是人机交互的震撼？推荐一本书叫Machine of Loving Grace。书里提到，计算机几十年的发展路程里，真正的赢家是做人机交互的。作者的观点是，不管是什么技术，最后的目的是帮助人类更好地使用机器。这是对应AI里一个词，叫IA（Intelligent Augmentation）。我很认可她的观点。我们要时常把真正的目的、初心想清楚。

思考2：大模型将横扫所有垂直行业。简单来说，以A100为参考，未来的模型如果要达到通用模型的性能，都会到万卡、上万亿参数的规模，而行业大模型可能是千张卡的训练规模。以企业为单位的模型会少些，可能是一百张卡百亿参数的规模。我个人觉得未来最有意思的是个人大模型。个性化参数以后，云和端设备可以结合起来，是非常有意义的。

思考3：算力是门槛。你需要非常强大的算力。黄仁勋当年送给联合创办OpenAI的马斯克世界上第一台英伟达 DGX-1。Sam Altman最近要筹7万亿美元继续发展AGI。以前有一句话叫“贫穷限制了想象力”，因为科研需要钱。现在可能不幸的是贫穷“扭曲”了我们的想象力。因为你没有卡以后，你能想象的、可以做的项目不太一样。

现在大家谈论得最多的是Scaling Laws。随着参数的增加，你对算力的需求几乎是平方的关系。随着参数的增加，数据量也在增加。做一个GPT3.5的话，可能要一万张卡，做一个GPT4，可能要两万五千张卡，而做GPT4.5，可能要5、6万张卡。大家做GPT5的话，可能要10万张卡。

思考4：AI的社会冲击。这里包括了对民众的冲击、公司的冲击、政府监管的冲击和社会发展的冲击，国际上都非常关注。ChatGPT问世后，为什么大家尤为关注这些议题？因为如果把搜索引擎类比为一个责任有限公司，则ChatGPT是责任无限公司，每句话都是它自己生成出来的。ChatGPT有一个很大的问题，就是“一本正经的胡说八道”，英语叫做Coherent nonsense。它coherent，但是它是nonsense，这样以后会产生很多问题。最近让大家非常担忧的是选举里出现了很多deep fake的现象，连美国总统的脸都可以fake。基于现在的情况，很多国家开始立法。中国政府一直高度关注这些问题，欧盟也非常严谨。整个国际社会都在努力。

思考5：虽然AGI蓬勃发展，但是目前大家对智能的本质尚未形成非常清晰的认知，深度学习理论仍欠缺。希望有一套大一统的理论，将智能的本质统一起来。当今深度学习领域还没有这样的理论，我称之为theory of anything。一直推动着这个方向的发展的是以前纽约大学的教授Gary Makers。他坚信，ChatGPT再怎么发展，现在的这套技术路线也无法带给我们真正的智能。我觉得这些都是学术上很好的不同观点，我们应该以一个开放的心态思考整个事情。像Transformer七作者与黄仁勋对谈的时候说过，他们相信世界上会出现比Transformer更好的架构。

以前大家常说，大模型大到一定地步，就会出现涌现。为什么？以及是到了多大，会出现涌现呢？这个问题没有人可以回答。去年，我在香港科技大学邀请了一些国际专家做了一个活动，谈涌现智能背后的数学原理。是不是（会有）涌现尚不可知，如果确实有涌现的话，背后是不是有数据原理？是否存在像水到冰的相变的过程？这些都值得大家做数学上的研究。

最后，在结束前我想分享的是，各位都在做创新的事情，而我一直相信，创新有三个层次。一个是技术的创新，一个是产品的创新，一个是商业模式的创新。有计算机和没计算机，是完全两码事。而有了计算机，没有互联网的话，就不存在电商这个概念了。所以这三种创新里，最根本的创新，尤其是对开发者而言，肯定是技术的创新。

所以以前大家会激动地说，要做PMF（product market fit），而在如今的大模型时代，给我们带来更大冲击的是TMF（technology market fit）。

ChatGPT出道即巅峰，一问世的两个月内就有了一亿用户。这些都给我们的开发者们一些鼓励。像我们在上海，把这样一个开发者系统好好地建立起来，大家互相帮助，在上海市政府的支持下，我们一定会把AI研发做得更好。谢谢大家！

（科创板日报记者黄心怡）

关于我们

清华大学人工智能国际治理研究院（Institute for AI International Governance, Tsinghua University，THU I-AIIG）是2020年4月由清华大学成立的校级科研机构。依托清华大学在人工智能与国际治理方面的已有积累和跨学科优势，研究院面向人工智能国际治理重大理论问题及政策需求开展研究，致力于提升清华在该领域的全球学术影响力和政策引领作用，为中国积极参与人工智能国际治理提供智力支撑。

新浪微博：@清华大学人工智能国际治理研究院

微信视频号：THU-AIIG

Bilibili：清华大学AIIG

来源 | 本文转载自科创板日报，点击“阅读原文”获取更多内容

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

沈向洋丨通用大模型时代重新思考人机关系

谷歌太壕了！编程Agent大招至简：开源且免费，百万上下文、多模态、MCP全支持

百度文心快码AI IDE上线，首创设计稿一键转代码、支持MCP

n8n实战：Webhook、条件判断与API集成详解

老黄新鲜一刀，RTX 5050正式官宣

国产GPU历史性时刻！摩尔线程、沐曦同日获IPO受理

00后投身具身智能创业，剑指机器人界「Model 3」！已推出21个自由度灵巧手

监督学习也能从错误中学习反思？！清华英伟达联合提出隐式负向策略爆炸提升数学能力

AI也会闹情绪了！Gemini代码调试不成功直接摆烂，马斯克都来围观

百度文心快码AI IDE上线，首创设计稿一键转代码、支持MCP

曝苹果拟收购Perplexity AI，人才一并拿走

沈向洋丨通用大模型时代 重新思考人机关系

沈向洋丨通用大模型时代重新思考人机关系