2023 年人工智能回顾

1,451次阅读
没有评论

2023 年人工智能回顾

编者按:2023年是人工智能发展不平凡的一年,人们也见证了AI技术的跨越式的发展。基于Transformer 的大模型AI和通用机器人技术的创新颠覆性地推进了AI的前沿。特别是新一代AI技术涌现的能力和行为让人们对 AI 的应用前景在期待中也可能包含一些不安。从语言理解到机器人的操作,AI正逐渐渗透到我们生活的方方面面。近期,初创公司 coach.ai 和AI Frontiers技术论坛的创始人Junling Hu博士发表了“AI in 2023: A Review (2023 年人工智能回顾)”。文章梳理了2023年在人工智能领域的一些进展,突出了大型语言模型、机器人技术和大脑活动检测方面的创新。从GPT-4和Gemini的性能提升到机器人在家庭中的应用,再到基于大脑信号的实时图像重建,这些进步展示了新一代AI技术在不同领域的多样性和颠覆性。对于2024年,我们有理由期待对大模型AI的更深的了解以及真正杀手级应用的出现。如需转载,请联系我们(ID:15937102830)

2023 年人工智能回顾

2023年是人工智能的分水岭之年。首次,人工智能已进入公共领域,触及我们生活的各个方面。它开始取代搜索引擎,成为我们提问的首选之地。人工智能有望颠覆许多行业:从教育到营销,IT支持,再到医学。在这里,我想总结人工智能在七个主要领域的进展。它们绝对不是详尽无遗的,我选择这些领域是因为它们的重要性以及颠覆未来的潜力。如果您注意到其他有趣的发展,请随时在这里留下评论。

01

人工智能能力的突破

如今的人工智能系统可以轻松通过图灵测试,我们不再争论人工智能是否可行。如果在2023年之前人工智能被看作是一个幼儿,那么在2023年,它已经成熟为一个十几岁的青少年,尽管它还不是成年人。成年人的人工智能系统应该能够像人类成年人一样思考和推理,这意味着能够通过大学考试或完成类似困难的任务。在2023年,无论是GPT-4还是谷歌的Gemini都在朝着这个目标取得了重大进展。

GPT-4和Gemini都非常庞大。这是因为一个大型语言模型的大小越大,其智能性就越高。据估计,GPT-4拥有约1.8万亿参数,大约有120层,并在模型内使用专家混合。谷歌没有发布Gemini的大小,但它显然比PaLM 2大得多,后者有3400亿参数。根据Gemini的报告,训练Gemini需要的资源明显多于PaLM 2,可能是三倍之多。这使其在1万亿参数的范围内。Gemini的架构可能类似于GPT-4:一个仅解码的Transformer模型,带有专家混合。

如今的大型语言模型(LLMs)表现出色,这可从它们在一系列具有挑战性的数据集上的表现中看出。

2023 年人工智能回顾

在常识推理(HelloSwag)领域,GPT-4实现了95%的准确率,相当于人类表现。在小学数学(GSM8K)领域,两个大型语言模型(LLMs)都达到了约95%的准确率。在涵盖57个学科的大学考试(MMLU)中,两个LLMs的准确率都超过了90%,超过了人类表现(89%)。对于曾经导致LLMs遇到困难的问题(Big-bench-hard),GPT-4达到了89%的准确率,而Gemini达到了83%。看起来LLMs正在克服它们的缺点。在编码问题(HumanEval)中,GPT-4达到了88%的成功率。对于带有数学推理的阅读理解(DROP),两个LLMs的准确率都在83%左右。唯一一个这些LLMs表现不佳的领域是数学竞赛问题(MATH)。总的来说,我们的大型基础模型在7项任务中有3项超过了人类,另外3项接近人类表现,只有1项表现不佳。人工智能正逐渐接近具有人类成年智能的阶段。

对于2024年,我们可以预期大型基础模型性能的持续提高。到2024年底,我预计最好的LLMs将在几乎所有数据集上超过人类。届时,我们可能宣布人工智能已经达到成年阶段,具有与成年人相当的推理和理解能力。

开源基础模型

所有大型基础模型都是闭源的,由几家公司拥有。许多公司担心它们对这些模型的依赖,因为无法看到其内部运作情况。这一担忧导致了许多开源模型的出现。

2023 年人工智能回顾

Meta在2月份发布了Llama,而LIMA则在5月份发布。然而,与当时的OpenAI模型(当时是GPT 3.5)相比,它们大多数都没有达到令人满意的性能。

Meta的Llama 2和Mistral的Mixtral 8x7B模型是表现最佳的之一。它们引起了人们的兴奋,因为它们接近了GPT 3.5的水平。但它们仍然远远落后于GPT-4。以下是最新的性能图表:

2023 年人工智能回顾

平均而言,开源模型比最佳GPT-4模型低20%。这引发了有关部署开源模型的问题。这是因为商业产品要求高准确性。因此,大多数公司可能会坚持使用OpenAI或Google的基础模型,主要是因为它们提供高度准确的结果。因此,今年我们将看到OpenAI继续崛起,越来越多的公司将使用OpenAI API来支持其GPT-4产品。Google也将是这场竞争中的积极参与者,凭借其现有的GCP和性能出色的Gemini,Google可能成为企业的人工智能提供商。

我们尚未解决幻觉问题。实际上,如一些研究所示,幻觉可能是大型语言模型的固有属性。缓解幻觉的方法包括将答案限制在现有文件内,并使用外部搜索来检查答案的有效性。另一种方法是要求回应中进行”Chain of Thoughts”推理。研究人员发现这显著减少了错误答案。由于幻觉在许多实际应用中是一个大问题,我们预计在2024年将看到更多解决这个问题的研究。

02

多模态人工智能

另一个重大进展是多模态大型语言模型(LLMs)的成熟。Bard在7月份允许上传图像,使用户能够基于图像提出问题。OpenAI在2023年9月发布了GPT-4V,它能够理解文本、图像和语音。Google在2023年12月发布了Gemini,它可以同时处理文本、图像、音频和视频。现在我们拥有了完全多模态的大型语言模型,也被称为LMMs(大型多模态模型)。

2023 年人工智能回顾

2023年的新趋势是将所有这些模态整合到一个单一模型中。这样的模型以Transformer作为其核心架构,并将每种类型的输入转换为可以由Transformer处理的标记。我们不仅可以处理不同的模态,还可以从这样的模型中生成不同的模态。

多模态能力的实现是由于在所有人工智能领域广泛采用Transformer,使得能够使用统一的架构处理文本、图像、音频和视频。视觉Transformer和视频Transformer已被证明优于CNN模型,语音Transformer模型也优于基于CNN的语音识别模型。今天,我们只需要一个单一的Transformer模型来处理这些输入格式,唯一额外的工作是生成图像标记或语音标记。

最新的VideoPoet5是这种多模态处理和多模态生成模型的示范。VideoPoet使用一个仅解码的Transformer,处理多模态输入,包括图像、视频、文本和音频。

2023 年人工智能回顾

VideoPoet取得了最先进的零样本视频生成技术,并能够生成高保真度的视频。

03

生成式人工智能的爆炸

在2023年,利用人工智能生成图像、音乐和视频成为最大的进展。文本到图像的生成在图像质量和逼真度方面取得了显著的成就。以下是2023年主要的生成模型的概要。

2023 年人工智能回顾

对于图像生成,Meta在四月份发布了Segment Anything Model(SAM),能够对任何图片进行零样本分割。十月,OpenAI发布了Dall-E 3。它具有最佳的图像生成质量和深度语言理解。

在文本到视频生成方面,Meta于11月6日发布了Emu Video。该模型将视频生成简化为两个步骤,允许它从文本和图像生成一个4秒的视频。Emu Video胜过了所有先前的模型,包括MAV、Google的Imagen、AYL、PYOCO、R&D、Cog、Gen2和Pika。在人类评估中,Emu超过了所有这些其他模型,在90%以上的时间内被人们优先选择。

2023年最令人激动的成就发生在年底。AudioBox 7在十二月发布,使得人工智能能够基于文本生成任何声音。在此之前,Lyria 8也能够根据文本提示以艺术家风格生成任何音乐。

VideoPoet也于十二月发布,引领了一个新的视频生成范式,摒弃了扩散模型,并将其整合到大型语言模型(LLM)中。

Alphacode 2在与Gemini同时宣布。它以Gemini作为基础模型,在编码竞赛中的表现达到了85%,相比人类参与者。Magicoder也发布了,它是最好的开源代码生成器。

2023年标志着扩散模型的胜利,因为许多图像生成都是基于这个模型的,包括Emu Video。然而,扩散模型的替代方案也出现了。OpenAI的Dall-E 3采用了一种不依赖扩散模型的一致性模型9。Google的VideoPoet直接使用Transformer,也避免在图像生成中使用扩散模型。换句话说,这两家最大的人工智能公司正在摆脱扩散模型在图像生成中的应用。我的预测是,在2024年,扩散模型将会减弱。摆脱扩散模型的驱动力是追求使用单一Transformer模型执行所有任务。我们预计在2024年会看到更多关于Transformer生成图像的研究结果。

04

人工智能代理的崛起

在2023年,我们开始看到“代理”,一种能够代表我们采取行动的人工智能系统。这些行动可以包括发送电子邮件、呼叫餐厅、从数据库中检索信息或生成图表。一旦引入了行动,人工智能助手就可以变得更加强大。这个行动模型被无缝集成到大型语言模型(LLM)中;因此,它是可学习和可调整的。

代理的一个应用领域是数据分析。将来,分析数据将不再是人类的工作,而将被委托给人工智能。如果一位高管对客户趋势感兴趣,他们只需用自然语言提出问题,答案和图表将自动生成。无需数据科学家编写复杂的SQL代码来检索数据。这表明,文本到SQL和图表生成将是2024年的重要应用。还有其他访问数据库以满足客户需求的应用程序。

OpenAI通过提供Assistants API支持人工智能代理范式。它将您的代码链接到外部工具,使其具有潜在的强大功能。然而,助手需要大量上下文,并且每次将上下文附加到总标记使其非常昂贵。此外,将助手与其他工具集成并不容易。在2024年,人工智能助手仍然是一个开放的竞争领域。一个灵活的助手API和低成本的解决方案可能会很有吸引力。Langchain已经取得了很多进展,但并非完美之选。AutoGen似乎更容易使用。AutoGPT是一次不错的尝试,但在许多关键功能上仍有所欠缺。我们可能会看到部署良好的代理解决方案的新公司出现。这是初创创新可能发生的地方。

尽管OpenAI和Google在基础模型方面领先,但良好的提示工程和代理操作可能会产生许多有趣的应用。我们预计会看到一些专业化的代理,如旅行助手、研究助手、价格谈判代理等。每个助手都可以利用专业化工具,为客户提供价值。

05

改进LLMs的更好微调方法

ChatGPT的成功引起了对一种称为RLHF(强化学习与人类反馈)的方法的关注。这种方法极大地提升了原始的GPT-3模型,并导致了成功部署GPT-3.5,为ChatGPT提供支持。RLHF还用于增强GPT-4、谷歌的PaLM 2和Meta的Llama 2模型的性能。因此,它是当今LLMs最广泛使用的微调方法。

由于RLHF取得了如此成功,并且与所有基础模型一起使用,人们正在尝试找到改进它的方法。这通过简化RLHF步骤来实现。RLHF包括三个步骤:1. 监督微调:使用人工创建的数据对当前模型进行训练。2. 训练奖励模型。在这一步中,收集用户对AI生成输出的偏好,并为每个输出给出一个分数。然后,训练一个评分模型或奖励模型。3. 应用强化学习和奖励模型对大型语言模型进行训练。

DPO

2023 年人工智能回顾

对RLHF的一项改进是替换强化学习步骤。斯坦福大学的研究人员提出了一种称为DPO(Direct Preference Optimization)的方法10。与训练奖励模型然后学习强化学习模型不同,DPO直接使用偏好数据来训练LLM。因此,DPO将两个步骤(奖励函数学习和RL)简化为一个单一步骤。

作者表明,DPO优于强化学习方法。如今,DPO在从业者中已经得到了广泛应用,用于微调他们的模型。这一趋势将在2024年持续发展。

RLAIF

改进RLHF的另一种方法是消除数据收集的瓶颈。RLHF的关键步骤之一是收集人类反馈数据,通过雇佣人提供答案来获取这些数据是昂贵的。人类数据收集过程也很耗时。我们可以不依赖于人类,而是使用诸如GPT-4之类的LLM为我们提供反馈,以提高RLHF的效果。RLAIF(带有人工智能反馈的强化学习)11采用GPT-4生成偏好数据,他们证明RLAIF在促进模型方面具有与RLHF类似的效果。通过利用人工智能进行反馈,我们消除了与从人类那里收集数据相关的瓶颈。

2023 年人工智能回顾

似乎我们正在朝着使用人工智能生成评估数据的方向发展,不仅仅是偏好数据,还包括其他监督训练任务。

Week-to-Strong Alignment

第三个重要的发展是研究RLHF在未来是否仍然有用。有一个隐含的假设,即RLHF将始终提高模型的性能,因为人类更懂。然而,这个假设可能不再成立。在未来的一年(今年或明年),我们将看到人工智能进化成为超级智能。这意味着它将在几乎所有任务上击败人类,从写一封出色的电子邮件到解决数学问题。当我们强迫一个LLM符合人的写作或说话方式时,我们可能会降低LLM在其他任务中的表现。换句话说,使用RLHF进行训练可能会使LLM的能力减弱。这与经典的监督训练形成鲜明对比,其中人类始终更聪明。这种情况显示在下图的中间图中,其中一个人试图教授一个超级智能人工智能。

2023 年人工智能回顾

OpenAI的研究人员已经调查了这个问题,并首次尝试模拟这个问题12。他们使用一个弱LLM(GPT-2)来教一个强LLM(GPT-4),并确认了GPT-4的性能确实下降了。这表明RLHF在未来可能效果不佳。OpenAI的研究人员提出了通过添加辅助置信度损失来解决这个问题。这使得微调后的GPT-4的性能可以提高到GPT 3.5的水平,但仍然低于原始GPT-4的水平。这篇论文代表了首次尝试理解将弱模型应用于训练强模型的效果。他们将这种方法称为弱到强泛化,我们预计在2024年会看到OpenAI发布更多关于这方面的研究成果。

06

令人兴奋的机器人学发展

随着LLMs的不断成熟和更强大,人工智能的前沿已经从构建数字模型转向了物理模型。人工智能发展的下一个阶段将是在机器人领域。

2023 年人工智能回顾

2023年机器人技术的进展令人兴奋,尽管不及LLMs的发展迅猛。这主要是由于构建和测试物理组件所面临的固有挑战。该领域一个令人兴奋的成就是特斯拉Optimus 2,能够精确地拾取并放置鸡蛋而不破碎。这种精准的处理对于机器人进入家庭标志着重大突破。

另一个值得注意的突破是基于Transformer的机器人架构RT-2 13。它引入了一个视觉-语言-动作模型,将机器人的动作编码为Transformer可以处理的标记。Transformer可以生成这样的动作标记,以便机器人相应地采取行动。该架构如下:

2023 年人工智能回顾

transformer模型可以接受文本和图像作为输入,然后生成相应的动作。这种架构将使今天的机器人能够使用LLM作为其核心模型。这样的机器人除了移动和抓取外,还可以具备听觉、视觉和语言能力。

在十月,谷歌研究人员发布了Open X-Embodiment数据集14。通过21个机构的合作,从22个不同的机器人中收集而来,包含527种技能。该数据集可以帮助机器人快速启动学习,并利用其他技能中的“预训练”来提高它们的性能。因此,它将加速机器人学的发展。

07

检测大脑活动

当我们测量一个人的大脑信号时,我们是否真的能够检测到这个人在听到或看到什么?2023年的另一个令人震惊的成就涉及基于由MEG记录的脑信号的实时图像重建15。它达到的准确度水平真的令人惊讶。

2023 年人工智能回顾

看起来我们不仅可以从大脑信号中恢复正确的形状和颜色,还可以恢复非常具体的细节。这项工作由Meta的研究人员进行,建立在先前从大脑信号中检测语音和从fMRI记录中进行图像重建的工作基础之上。

在不久的将来,我们可能能够将这些技术应用于一个人在睡觉时,并监测他们的梦境。有一天,我们是否能够将一个人的梦想投影到像电影一样的大屏幕上?图像恢复方面的研究预计将在2024年继续,可能会取得更好的性能。

2023 年人工智能回顾

想要了解更多,欢迎入群交流!
 

权益福利:

1、AI 行业、生态和政策等前沿资讯解析;

2、最新 AI 技术包括大模型的技术前沿、工程实践和应用落地交流(社群邀请人数已达上限,可先加小编微信:15937102830)

 

2023 年人工智能回顾

关于MoPaaS魔泊云

源于硅谷、扎根中国,上海殷泊信息科技有限公司 (MoPaaS) 是中国领先的人工智能(AI)平台和服务提供商,为用户的数字转型、智能升级和融合创新直接赋能。针对中国AI应用和工程市场的需求,基于自主的智能云平台专利技术,MoPaaS 在业界率先推出新一代开放的AI平台为加速客户AI技术创新和应用落地提供高效的算力优化和规模化AI模型开发、部署和运维 (ModelOps) 能力和服务;特别是针对企业应用场景,提供包括大模型迁移适配、提示工程以及部署推理的端到端 LLMOps方案。MoPaaS AI平台已经服务在工业制造、能源交通、互联网、医疗卫生、金融技术、教学科研、政府等行业超过300家国内外满意的客户的AI技术研发、人才培养和应用落地工程需求。MoPaaS致力打造全方位开放的AI技术和应用生态。MoPaaS 被Forrester评为中国企业级云平台市场的卓越表现者 (Strong Performer)。

 

2023 年人工智能回顾

  END  

▼ 往期精选 ▼

 

1、打造通用机器人大脑的全球合作项目

 

2、2024 年人工智能的下一步是什么

 

3、GPT-4和GPT-4V能否像人类一样进行抽象推理

 

4、我们离 AI 的巅峰还有多近?

 

▼点击下方“阅读原文”

 

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 1 月
1234567
891011121314
15161718192021
22232425262728
293031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开

清库存!DeepSeek突然补全R1技术报告,训练路径首次详细公开 Jay 2026-01-08 20:18:...
2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔

2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔

2025最大AI赢家的凡尔赛年度总结,哈萨比斯Jeff Dean联手执笔 鹭羽 2025-12-24 09:1...
AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI Coding新王登场!MiniMax M2.1拿下多语言编程SOTA

AI C++oding新王登场!MiniMax M2.1拿下多语言编程SOTA 克雷西 2025-12-24 ...
国产AI4S创业头雁再获8亿投资!深势科技完成C轮,产品已服务300万科学家

国产AI4S创业头雁再获8亿投资!深势科技完成C轮,产品已服务300万科学家

国产AI4S创业头雁再获8亿投资!深势科技完成C轮,产品已服务300万科学家 思邈 2025-12-24 14...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
樱智α·医疗可信平台全新发布,北电数智与中日友好医院联合打造

樱智α·医疗可信平台全新发布,北电数智与中日友好医院联合打造

樱智α·医疗可信平台全新发布,北电数智与中日友好医院联合打造 十三 2026-01-04 14:02:42 来...
OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex

OpenAI推理第一人离职,7年打造了o3/o1/GPT-4/Codex 衡宇 2026-01-06 13:0...
老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛

老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛

老黄All in物理AI!最新GPU性能5倍提升,还砸掉了智驾门槛 闻乐 2026-01-06 09:09:0...
悲报!Stack Overflow彻底凉了,比18年前上线首月问题数量还少

悲报!Stack Overflow彻底凉了,比18年前上线首月问题数量还少

悲报!Stack Overflow彻底凉了,比18年前上线首月问题数量还少 闻乐 2026-01-05 19:...