编者按:MIT 技术评论 (MIT Technology Review) 的“What’s
Next in Tech”系列报告给读者提供对未来产业技术发展趋势的预测,近期,该期刊两位作者Melissa
Heikkilä & Will
Douglas Heaven联合发布了“What’s Next”系列最新报告“What’s next for AI in
2024”《2024 年人工智能的下一步发展趋势》。文章回顾了去年的预测,并强调了对2024年的几个关键趋势进行观察。首先,生成式人工智能在智能聊天机器人领域的应用将变得更为个性化,用户可定制强大语言模型以满足特定需求。其次,生成式人工智能将进入视频领域的第二波浪潮,为影视制作、特效和广告带来新的可能性。此外,文章强调了人工智能生成的选举虚假信息的传播,对舆论和选民的影响引发了深刻的担忧。最后,机器人学家正利用生成式人工智能技术,构建更通用、多任务处理的机器人,为各个领域带来革命性的改变。总体而言,文章揭示了生成式人工智能在多个领域的持续演进,以及相关技术对社会、产业和文化的深远影响。这些趋势将塑造未来数年的科技发展格局,同时也提出了许多值得思考的问题和挑战。我们特将该文章编译出来和各位客户、合作伙伴朋友分享
。如需转载,请联系我们(ID:15937102830)
就在去年的这个时候,我们做了一些鲁莽的事情。在一个一切都在不断变化的行业里,我们试图预测未来。
我们的表现如何呢?我们对2023年的四个大胆预测是:聊天机器人的下一个大趋势将是多模态的(验证:目前最强大的大型语言模型,OpenAI的GPT-4和Google
DeepMind的Gemini,支持文本、图像和音频);决策者将制定严格的新法规(验证:拜登的行政命令于十月发布,欧洲联盟的人工智能法案在十二月终于达成一致);大科技公司将受到开源初创公司的压力(半对:开源激增,但像OpenAI和Google DeepMind这样的人工智能公司仍然抢尽风头);人工智能将彻底改变大型制药行业(还为时过早:在药物发现领域,人工智能革命仍在全力进行,但首批使用人工智能开发的药物距离上市还需要一些年时间)。
现在,我们又要来一次。
我们决定忽略那些显而易见的事实。我们知道大型语言模型将继续占据主导地位。监管机构将变得更加大胆。从偏见到版权再到悲观主义,人工智能的问题将塑造未来几年内研究人员、监管机构和公众的议程,不仅仅是在2024年。
相反,我们选择了一些更具体的趋势。以下是2024年需要关注的事项。(明年回来看看我们的表现如何吧。)
-
01
- 定制聊天机器人
-
你有一个聊天机器人!你也有一个聊天机器人!在2024年,那些大举投资生成式人工智能的科技公司将面临压力,需要证明他们可以通过产品盈利。为了做到这一点,人工智能巨头Google和OpenAI正在大力 s发展用户友好的平台,允许人们定制强大的语言模型并制作符合其特定需求的迷你聊天机器人——无需编码技能。两者都推出了基于Web的工具,允许任何人成为生成式人工智能应用开发者。
在2024年,生成式人工智能可能会真正对普通非技术人员有所用处,我们将看到更多人摆弄着数百万个小型人工智能模型。最先进的人工智能模型,如GPT-4和Gemini,是多模态的,意味着它们不仅可以处理文本,还可以处理图像甚至视频。这一新的功能可能会解锁许多新的应用。例如,房地产经纪人可以上传先前列表的文本,微调一个强大的模型,只需点击按钮即可生成类似的文本,上传新列表的视频和照片,然后简单地要求定制的人工智能生成房产描述。
但当然,这个计划的成功取决于这些模型是否能可靠工作。语言模型经常会编造东西,生成模型充满偏见。它们也很容易被黑客攻击,尤其是如果允许它们浏览网络的话。科技公司尚未解决这些问题。当新奇感消失时,它们将不得不为客户提供解决这些问题的方法。
—Melissa
Heikkilä
-
02
- 生成式人工智能的第二波将是视频
-
令人惊奇的是,奇妙的东西变得如此熟悉的速度。第一批能够生成逼真图像的生成式模型在2022年爆红,并迅速变得司空见惯。诸如OpenAI的DALL-E、Stability AI的Stable
Diffusion和Adobe的Firefly等工具充斥着互联网,展示了从教皇穿着巴黎世家到获奖艺术品等各种令人惊叹的图像。但并非所有都是有趣的:对于每个挥舞着啦啦队旗的哈巴狗,就有另一个仿制品幻想艺术或性别刻板印象的作品。
新的前沿是文本转视频。预计它将继续发扬文本转图像的一切优点、缺点或丑陋,并加以升级。
一年前,我们首次看到当生成式模型被训练用于将多个静止图像拼接成几秒钟长的视频剪辑时,它们能做到什么程度。结果是扭曲而颤动的。但技术已经迅速改善。
Runway是一家制造生成式视频模型的初创公司(也是共同创造了Stable Diffusion的公司),每隔几个月就发布其工具的新版本。其最新模型名为Gen-2,仍然生成仅有几秒钟的视频,但质量非常出色。最好的片段几乎可以与Pixar发布的相媲美。
Runway成立了一年一度的人工智能电影节,展示了使用各种人工智能工具制作的实验电影。今年的电影节奖金总额为60,000美元,最佳的10部电影将在纽约和洛杉矶上映。
顶级制片公司关注此事并不奇怪。包括派拉蒙和迪士尼在内的电影巨头现在正在探索在整个制作流程中使用生成式人工智能。该技术被用于将演员的表演与多种外语配音同步。它正在重新定义特效的可能性。在2023年,电影《印第安纳琼斯与命运之轮》中,主演是一位被年轻化的深度伪造哈里森·福特。这只是开始。
远离大屏幕,深度伪造技术在营销或培训领域也在蓬勃发展。例如,总部位于英国的Synthesia制造的工具可以将演员的一次表演转化为无休止的深度伪造头像流,只需按下按钮,它们就能朗读你提供的任何剧本。据该公司称,其技术现在被Fortune 100公司中的44%使用。
这种用微不足道的东西做很多事情的能力引发了对演员的严重问题。对于制片公司对人工智能的使用和滥用的担忧成为了去年SAG-AFTRA罢工的核心问题。但该技术的真正影响才刚刚显现出来。“电影制作的工艺正在从根本上改变,”独立电影制片人、Bell & Whistle创意技术咨询公司的联合创始人Souki Mehdaoui表示。
—Will
Douglas Heaven
-
03
- 人工智能生成的选举虚假信息将无处不在
-
如果最近的选举有什么值得参考的,那么人工智能生成的选举虚假信息和深度伪造将在2024年创下创纪录的选民走向投票站的人数中成为一个巨大的问题。我们已经看到政客正在将这些工具武器化。在阿根廷,两位总统候选人制作了对手的人工智能生成的图像和视频,以攻击对手。在斯洛伐克,自由主义的亲欧洲党领袖的深度伪造视频传播如火如荼,威胁要提高啤酒价格并开玩笑涉及儿童色情,这发生在该国的选举期间。而在美国,唐纳德·特朗普则为一个使用人工智能生成带有种族主义和性别歧视陈词滥调的模因的团体喝彩。
虽然很难说这些例子对选举结果产生了多大的影响,但它们的大量出现是一个令人担忧的趋势。要辨认在线上的真实情况将变得比以往任何时候都更加困难。在已经处于炽热和两极分化的政治氛围中,这可能会带来严重后果。
仅仅几年前,制作深度伪造视频需要高级技术技能,但生成式人工智能使其变得极其简单和可访问,而且输出的结果看起来越来越逼真。即使是权威来源也可能被人工智能生成的内容所欺骗。例如,声称描绘以色列-加沙危机的用户提交的人工智能生成的图像已经涌入像Adobe这样的股票图像市场。
即将到来的一年将对那些抵制此类内容传播的人来说至关重要。追踪和缓解此类内容的技术仍处于早期开发阶段。水印技术,如Google DeepMind的SynthID,仍然大多是自愿的,而且并非完全防不胜防。社交媒体平台以拆除虚假信息而著称的速度明显较慢。为迎接一场大规模的实时实验,以揭穿人工智能生成的虚假新闻,做好准备吧。
—Melissa
Heikkilä
-
04
- 多任务处理的机器人
受到生成式人工智能当前繁荣背后的一些核心技术的启发,机器人学家开始构建更通用的机器人,能够执行更广泛的任务。
在过去几年的人工智能领域,已经出现了从使用多个小型模型,每个模型都经过训练以执行不同的任务(识别图像、绘制图像、为图像加标题等),转向训练单一、整体性模型以执行所有这些任务及更多任务的趋势。通过向OpenAI的GPT-3展示一些额外的例子(称为微调),研究人员可以训练它解决编码问题、撰写电影剧本、通过高中生物考试等任务。多模态模型,如GPT-4和Google DeepMind的Gemini,既可以解决视觉任务,也可以解决语言任务。
相同的方法也可以应用于机器人,因此不需要训练一个机器人翻煎饼,另一个机器人开门:一个通用模型可以使机器人具备多任务处理的能力。2023年出现了该领域的几个工作示例。
在六月,DeepMind发布了Robocat(去年Gato的更新版本),它通过反复尝试生成自己的数据,以学习如何控制许多不同的机器人手臂(而不是一种特定的手臂,这更为典型)。
在十月,该公司推出了另一款机器人通用模型RT-X,以及一个与33个大学实验室合作的大型通用训练数据集。其他顶级研究团队,如加利福尼亚大学伯克利分校的RAIL(机器人人工智能和学习)团队,也在研究类似的技术。
问题在于缺乏数据。生成式人工智能依赖于互联网规模的文本和图像数据集。相比之下,机器人几乎没有好的数据来源,帮助它们学习执行我们想要它们执行的许多工业或家庭任务。
纽约大学的Lerrel Pinto领导着一个致力解决这个问题的团队。他和他的同事们正在开发通过反复试错让机器人学习的技术,他们在此过程中产生自己的训练数据。在一个更为低调的项目中,Pinto已经招募了志愿者,使用iPhone相机安装在捡垃圾的工具上,收集他们家中周围的视频数据。大公司在过去几年中也开始发布大型机器人训练数据集,例如Meta的Ego4D。
这种方法在无人驾驶汽车领域已经显示出了希望。Wayve、Waabo和Ghost等初创公司正在引领一波新的自动驾驶人工智能浪潮,使用单一大型模型来控制车辆,而不是使用多个较小的模型来控制特定的驾驶任务。这使得小型公司能够迎头赶上Cruise和Waymo等巨头。Wayve现在正在伦敦狭窄繁忙的街道上测试其无人驾驶汽车。到处都有机器人将迎来类似的提升。
—Will
Douglas Heaven
想要了解更多,欢迎入群交流!
权益福利:
1、AI 行业、生态和政策等前沿资讯解析;
2、最新 AI 技术包括大模型的技术前沿、工程实践和应用落地交流(社群邀请人数已达上限,可先加小编微信:15937102830)
关于MoPaaS魔泊云
源于硅谷、扎根中国,上海殷泊信息科技有限公司 (MoPaaS) 是中国领先的人工智能(AI)平台和服务提供商,为用户的数字转型、智能升级和融合创新直接赋能。针对中国AI应用和工程市场的需求,基于自主的智能云平台专利技术,MoPaaS 在业界率先推出新一代开放的AI平台为加速客户AI技术创新和应用落地提供高效的算力优化和规模化AI模型开发、部署和运维 (ModelOps) 能力和服务;特别是针对企业应用场景,提供包括大模型迁移适配、提示工程以及部署推理的端到端 LLMOps方案。MoPaaS AI平台已经服务在工业制造、能源交通、互联网、医疗卫生、金融技术、教学科研、政府等行业超过300家国内外满意的客户的AI技术研发、人才培养和应用落地工程需求。MoPaaS致力打造全方位开放的AI技术和应用生态。MoPaaS 被Forrester评为中国企业级云平台市场的卓越表现者 (Strong Performer)。
END
▼ 往期精选 ▼
3、为什么像 ChatGPT 和 Google Bard 这样的LLM数学不好
▼点击下方“阅读原文”!