谷歌新的Gemini模型看起来很棒，但可能预示着 AI 炒作的巅峰

1,305次阅读

【编者按：Gemini的发布标志着谷歌在人工智能领域的一次重要尝试，这款多模态模型被宣传为“万能机器”，具备处理多种输入和任务的能力。MIT 技术评论杂志记者有机会在Gemini发布前后采访谷歌相关人员及其它机构的从业者来了解该多模态大模型的一些情况，并在第一时间发表报道“Google DeepMind’s new Gemini model looks amazing—but could signal peak AI hype” (谷歌DeepMind的新Gemini模型看起来很棒，但可能预示着人工智能炒作的巅峰）” 试图介绍Gemini的一些情况、包括业界人士的各种解读以及对AI发展的展望。尽管谷歌声称在性能评估中Gemini超越了GPT-4，但实际上各项指标的差距并不太大。这也可能预示着以Gemini和GPT-4为代表的基于自回归模型的生成式人工智能模型的能力接近其可能达到的巅峰。我们认为机器学习的“No-Free-Lunch (没有免费午餐)”原理需要不断地被提醒，以免从业者自觉或不自觉地陷入“信息永动机”怪圈；特别是在目前大模型AI 的狂热下，人们也需要了解大模型的局限；AI 能力的进一步提升以及AI的有效应用可能更需要借助大模型之外的机制 … 当然Gemini和GPT-4等大模型技术对于人工智能技术发展的全面影响还需要进一步的研究评估和时间检验。MIT 技术评论的这篇文章对AI发展现状的反思是必要的。我们特将该文章编译出来和各位客户、合作伙伴朋友分享。如需转载，请联系我们（ID：15937102830）】

谷歌新的Gemini模型看起来很棒，但可能预示着 AI 炒作的巅峰

有关Gemini的炒作，即谷歌DeepMind长期传闻中对OpenAI的GPT-4做出的回应，已经持续了几个月。今天，公司终于透露了他们这段时间一直秘密进行的工作。这种炒作是否合理？是的-也不是。

Gemini是谷歌迄今为止最大的人工智能推出，旨在与竞争对手 OpenAI和 Microsoft 争夺 AI 霸主地位。毫无疑问，该模型在多种功能上都被视为同类最佳，正如一位观察家所说，它是“万能机器”。

谷歌及其母公司Alphabet 的首席执行官桑达尔·皮查伊 (Sundar Pichai)告诉《麻省理工科技评论》：“该模型本质上更强大。” “这是一个平台。人工智能是一个意义深远的平台转变，其规模比网络或移动设备还要大。因此，这对我们来说是向前迈出的一大步。”

这对谷歌来说是一大步，但对于整个领域来说不一定是巨大的飞跃。谷歌DeepMind声称Gemini在32项标准性能评估中有30项超过了GPT-4。然而，它们之间的差距并不大。谷歌DeepMind所做的是将人工智能当前最优秀的能力整合到一个强大的包裹中。根据演示来判断，它在许多方面表现出色，但很少有我们之前没有见过的功能。尽管对于下一个大事件存在各种热烈讨论，但Gemini可能表明我们已经达到了人工智能炒作的高峰，至少目前是这样。

华盛顿大学专门研究在线搜索的教授Chirag Shah将此次发布与苹果每年推出新款iPhone 进行了比较。“也许我们现在只是上升到了一个不同的门槛，这并没有给我们留下那么深刻的印象，因为我们刚刚看到了这么多，”他说。”

与GPT-4一样，Gemini是多模态的，意味着它经过训练可以处理多种类型的输入：文字、图像、音频。它可以结合这些不同的格式来回答有关从家务到大学数学再到经济学等各个领域的问题。

在昨天向记者展示的演示中，谷歌展示了Gemini的能力，即获取现有图表的截图，分析数百页的新数据研究，然后用这些新信息更新图表。在另一个示例中，Gemini展示了一个平底锅里正在烹饪煎蛋卷的图片，并使用语音提问（而不是文字），询问煎蛋卷是否已经煮熟。“因为蛋还没凝固，所以还没煮好，”它回答道。

然而，大多数人将不得不等待全面体验。今天推出的版本是谷歌基于文本的搜索聊天机器人 Bard 的后端，谷歌表示这将使其拥有更先进的推理、规划和理解能力。Gemini的完整版本将在未来几个月内分阶段发布。新的经过Gemini增强的Bard将最初在超过170个英语的国家/地区中推出，但不包括欧盟和英国。谷歌负责Bard的副总裁Sissie Hsiao表示，这是为了让公司与当地监管机构“接触”。

Gemini还有三种规模：Ultra、Pro和Nano。Ultra是全功能版本；Pro和Nano针对运行资源更有限的应用程序。Nano旨在运行于手机等设备上，比如谷歌的新Pixel手机。开发者和企业将能够从12月13日开始使用Gemini Pro。谷歌高管在新闻发布电话会议上告诉记者，最强大的模型Gemini Ultra将在“明年初”进行“广泛的信任和安全检查”后推出。

“我认为这是模型的Gemini时代，”Pichai告诉我们。“这是谷歌DeepMind在人工智能领域构建和取得进展的方式。因此，它永远代表着我们在人工智能技术方面取得进展的前沿。”

更大、更好、更快、更强

OpenAI最强大的模型GPT-4被视为该行业的黄金标准。虽然谷歌吹嘘Gemini的表现优于OpenAI先前的模型GPT 3.5，但公司高管回避了有关该模型超越GPT-4多少的问题。

但该公司特别强调了一个基准，称为MMLU（大规模多任务语言理解）。这是一组旨在衡量模型在涉及文本和图像的任务上表现的测试，包括阅读理解、大学数学以及涉及物理、经济和社会科学的多项选择测验。皮查伊表示，在仅涉及文本的问题上，Gemini得分为90%，而人类专家得分大约为89%。而GPT-4在这些类型的问题上得分为86%。在多模态问题上，Gemini得分为59%，而GPT-4得分为57%。“这是第一个跨越这个门槛的模型，”皮查伊说道。

新墨西哥州圣菲研究所的人工智能研究员 Melanie Mitchell 表示，Gemini在基准数据集上的表现非常令人印象深刻。

“很明显，Gemini是一个非常复杂的人工智能系统，” Mitchell 说道。但“对我来说， Gemini是否实际上比GPT-4更有能力并不明显。” 她补充说。

据斯坦福大学基础模型研究中心主任Percy Liang表示，尽管该模型具有良好的基准分数，但由于我们不知道训练数据的内容，因此很难解释这些数字。

Mitchell还指出，Gemini在语言和代码基准上的表现要比在图像和视频上要好得多。“多模式基础模型对于许多任务来说还有很长的路要走，才能普遍而强大地发挥作用”她说。

谷歌DeepMind利用来自人类测试者的反馈，对Gemini进行了训练，使其在事实准确性、在被问及时给出归因，并在面对无法回答的问题时回避而不是胡言乱语。公司声称这可以减轻幻觉问题。但是如果不对基础技术进行彻底改革，大型语言模型将会继续编造内容。

专家表示，目前尚不清楚谷歌用来衡量 Gemini 性能的基准是否提供了如此多的洞察力，而且如果缺乏透明度，就很难检查谷歌的说法。。

“谷歌正在将Gemini宣传为一个全能机器——一个可以以许多不同方式使用的通用模型，”华盛顿大学计算语言学教授Emily Bender说道。但公司正在使用狭窄的基准来评估预计用于这些多样用途的模型。“这意味着它实际上无法进行全面评估，”她说。

最终，对于普通用户来说，相较于竞争模型的渐进改进可能并没有太大的区别，Shah说道。“更多的是关于方便性、品牌认知、现有整合，而不是人们真正认为‘哦，这更好’，”他说。

漫长而缓慢的积累

Gemini的到来历经了漫长的等待。在2023年4月，谷歌宣布将其人工智能研究部门Google Brain与DeepMind合并，DeepMind是Alphabet旗下位于伦敦的人工智能研究实验室。因此，歌花了一整年的时间来开发 OpenAI 最先进的大型语言模型GPT-4 的答案，该模型于 3 月份首次亮相，是ChatGPT 付费版本的支柱。

谷歌一直承受着巨大压力，要向投资者展示它能够与竞争对手在人工智能领域相匹敌甚至超越。尽管该公司多年来一直在开发和使用强大的人工智能模型，但由于担心声誉受损和安全问题，谷歌一直犹豫不决，不愿意推出供公众使用的工具。

“谷歌一直对向公众发布这些东西非常谨慎，” Geoffrey Hinton在四月份离开该公司时告诉麻省理工科技评论。“可能发生太多糟糕的事情，谷歌不想毁掉自己的声誉。”面对似乎不可信或难以推广的技术，谷歌选择了保守策略——直到错过了更大的风险。

谷歌已经从推出有缺陷的产品可能带来的负面影响中吃过苦头。当它在二月份推出与ChatGPT竞争的Bard时，科学家很快就注意到了该公司在聊天机器人的广告中存在事实错误，随后这一事件使其股价蒸发了一千亿美元。

在五月份，谷歌宣布将生成式人工智能应用到其大多数产品中，从电子邮件到办公软件。但结果未能打动批评者：例如，聊天机器人提到了并不存在的电子邮件。

这是大型语言模型的一个持续问题。尽管生成式人工智能系统擅长生成听起来像人类可以写出的文本，但它经常会编造一些东西。这不是它们的唯一问题。它们也很容易被黑客攻击，而且充满偏见。它们的使用也极易造成环境污染。

谷歌既没有解决这些问题，也没有解决幻觉问题。它对后者问题的解决方案是一个工具，让人们可以使用谷歌搜索来验证聊天机器人的答案，但这取决于在线搜索结果本身的准确性。

Gemini可能是这波生成式人工智能浪潮的顶峰。但目前尚不清楚基于大型语言模型构建的人工智能下一步将走向何处。一些研究人员认为，这可能是一个平台期，而不是下一个高峰的底部。

皮查伊并未被吓倒。“展望未来，我们确实看到了很大的发展空间，”他说。“我认为多模态将会很重要。随着我们教导这些模型进行更多推理，将会有更大更深入的突破。更深入的突破即将到来。

“当我全面考虑这一切时，我真的觉得我们还处于刚刚起步的阶段。”

谷歌新的Gemini模型看起来很棒，但可能预示着 AI 炒作的巅峰

想要了解更多，欢迎入群交流！

权益福利：

1、AI 行业、生态和政策等前沿资讯解析；

2、最新 AI 技术包括大模型的技术前沿、工程实践和应用落地交流（社群邀请人数已达上限，可先加小编微信：15937102830）

谷歌新的Gemini模型看起来很棒，但可能预示着 AI 炒作的巅峰

关于MoPaaS魔泊云

源于硅谷、扎根中国，上海殷泊信息科技有限公司 (MoPaaS) 是中国领先的人工智能(AI)平台和服务提供商，为用户的数字转型、智能升级和融合创新直接赋能。针对中国AI应用和工程市场的需求，基于自主的智能云平台专利技术，MoPaaS 在业界率先推出新一代开放的AI平台为加速客户AI技术创新和应用落地提供高效的算力优化和规模化AI模型开发、部署和运维 (ModelOps) 能力和服务；特别是针对企业应用场景，提供包括大模型迁移适配、提示工程以及部署推理的端到端 LLMOps方案。MoPaaS AI平台已经服务在工业制造、能源交通、互联网、医疗卫生、金融技术、教学科研、政府等行业超过300家国内外满意的客户的AI技术研发、人才培养和应用落地工程需求。MoPaaS致力打造全方位开放的AI技术和应用生态。MoPaaS 被Forrester评为中国企业级云平台市场的卓越表现者 (Strong Performer)。

谷歌新的Gemini模型看起来很棒，但可能预示着 AI 炒作的巅峰

END

▼ 往期精选 ▼

1、软件开发正在受到Gen AI的最大影响

2、解释生成式人工智能

3、GPT-4 Turbo 下国产大模型的突围之路在哪里？

4、五个早期的例子告诉你，可以用OpenAI的GPT Builder做什么?

▼点击下方“阅读原文”！

谷歌新的Gemini模型看起来很棒，但可能预示着 AI 炒作的巅峰

更大、更好、更快、更强

漫长而缓慢的积累

test

test

文心AIGC

test

test

2023 年 12 月
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

2023 年 12 月
一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31