分布式人工智能框架 Ray 如何帮助 OpenAI 驱动 ChatGPT

905次阅读
没有评论

分布式人工智能框架 Ray 如何帮助 OpenAI 驱动 ChatGPT

编者按:ChatGPTGPT-4 这样的超大模型显示出惊人的内容生成能力;但在这个生成AI的新时代需要什么基础技术来大规模扩展像 ChatGPT 这样的 AI 模型和软件?公开的信息显示 ChatGPT 的训练使用了上万张高端的 GPU 卡。对于管理和编排这样大规模 GPU 集群来提供足够的并行计算能力显然不是一件容易的事。实际上,OpenAI 使用了 Ray 框架来实现训练 ChatGPT 这样超过千亿个参数的超大模型所需要的大规模底层基础算力资源优化和调度。Ray 是由 Berkeley 加州大学计算机教授 Ion Stoica 创办的 Anyscale 公司开发的一个开创性的分布式AI 框架;之前 Stoica 教授也创办了独角兽企业 Databrick。科技媒体 The New Stack 的高级编辑 Richard MacManus 近期有机会采访了Stoica教授,以了解 Ray 到底是做什么以及 Ray 是怎样支持 ChatGPT 训练等相关情况。采访的内容被整理成文章 “How Ray, a Distributed AI Framework, Helps Power ChatGPT(分布式人工智能框架 Ray 如何帮助 OpenAI 驱动 ChatGPT)”。该文章揭秘了 Ray到底是什么东西?OpenAI 为什么要采用 Ray 来训练 ChatGPT?  Ray 怎样驱动包括 ChatGPT 在内的大模型?以及未来需要什么基础技术来大规模扩展 AI 模型和软件?…  另外,作为国内领先的 AI 平台的提供商,MoPaaS 很早就布局 AI@Scale 并在其平台产品里无缝提供了 Ray 等分布式 AI 框架来赋能多个客户的规模化模型训练以及支持强化学习能力 … 我们特将该文章内容编译出来和各位客户、合作伙伴朋友分享。如需转载,请联系我们(ID:15937102830)

分布式人工智能框架 Ray 如何帮助 OpenAI 驱动 ChatGPT

Databricks 和Anyscale 的联合创始人、伯克利计算机科学高级教授 Ion Stoica认为,2023 年将是“分布式 AI 框架”的一年。不用说,他已经参与创建了这样一个工具, Anyscale 的开源Ray 平台。在其他用途中,Ray 突破性的帮助了 OpenAI 驱动 ChatGPT 。

我采访了 Stoica,以了解 Ray 到底是做什么的,更广泛地说,在这个生成人工智能的新时代需要什么来扩展人工智能软件。我们还讨论了最新的“天空计算”,这是 Stoica 和他的伯克利团队在 2021 年提出的一个术语,在一篇论文中提出了一种基于互操作性和分布式计算的新型云计算。

01

什么是Ray?

根据 Stoica 的说法,Ray是一个“分布式计算生态系统即服务”,在过去几年中一直专注于“支持机器学习工作负载”。他说,它于2016 年作为伯克利分校的一个课堂项目开始开发,目标是实现“分布式训练”(即机器学习的数据训练)。伯克利也是构建数据处理引擎 Apache Spark 的地方。但 Stoica 表示,他们很快了解到 Spark 并不是深度学习工作负载的最佳选择。

“Spark 非常适合数据处理和经典机器学习,”他解释道。“但当时 (2016),深度学习正在蓬勃发展,深度学习需要 GPU。因为Spark是基于java的,所以它对GPU的支持不是很好。”

随着产品开发的继续,伯克利团队——包括 Stoica 的 Anyscale 联合创始人,以及他的研究生 Robert Nishihara 和 Philipp Moritz——变得更加雄心勃勃。在分布式训练之后,他们增加了对强化学习的支持。

“可以说,强化学习是一头相当复杂的野兽,”Stoica 说,“因为它需要你做很多事情——它需要你训练一个智能体,与模拟器或环境进行交互,获得环境的状态,然后据此做出决定。许多这些强化学习应用程序也使用模拟器,如游戏或制造模拟器。所以你必须运行模拟,而且所有这些都是大规模的。”

Ray 的第一个使用案例是帮助新西兰队夺得美洲杯帆船赛的冠军,这是世界上最负盛名的游艇奖项。与F1赛车类似,美洲杯冠军依靠最先进的技术取胜。为了在 2022 年获胜,新西兰队使用 Anyscale 的RLlib(一种基于 Ray 构建的Python强化学习框架)“全天候进行”航行模拟。

分布式人工智能框架 Ray 如何帮助 OpenAI 驱动 ChatGPT

在其网站上,Anyscale 将Ray 定位为“扩展 Python 的最简单路径”。根据 Stoica 的说法,Ray “就像是 Python 的扩展”,并且与 Python 一样,有一组针对不同用例的 Ray 库。RLlib 用于强化学习,但也有类似的库用于训练、服务、数据预处理等。

02

为什么OpenAI使用Ray

在其案例研究论文中,Anyscale将 Uber、Shopify 和 Instacart 等公司列为 Ray 的用户。当然,目前最有趣的用例是 OpenAI 如何将其用于 ChatGPT。我向 Stoica 询问了更多细节。

“我希望我知道更多……OpenAI 非常神秘,”他笑着说。然而,他确实解释了OpenAI 依赖 Ray 的分布式扩展技术的原因。他说,如果你绘制出训练最先进机器学习模型的计算需求,该图“每 18 个月至少增长 10 倍”。他补充说,这种增长率自 2010 年以来一直在发生。

如果这个公式听起来很熟悉,你应该还记得摩尔定律指出的,密集集成电路 (IC) 中的晶体管数量大约每两年翻一番。Stoica 表示,ML 培训要求每 18 个月增加十倍,这意味着单靠个人计算机不足以满足训练 ML 模型的需求。

“摩尔定律正在变慢,”Stoica 说,“所以你会看到这些机器学习工作负载的需求与单个节点或单个处理器的能力之间的差距越来越大。很明显,最终支持这些工作负载的唯一方法就是分配这些工作负载。”

他认为加速器,如 GPU,将有助于缩小差距,“但它们不会解决问题。”同样,他说,这个问题不仅仅在于计算能力,还在于计算机内存处理 ML 负载的能力。

03

管理数据并使用Kubernetes

作为帮助处理这些 ML 需求的一种方式,Ray 帮助协调数据采集和处理的过程。

Stoica 说“这是一个非常通用、易于使用、Python原生的分布式计算平台,”,并补充说,它可以作为“进行训练、数据采集、再处理——所有这些事情的基础。”

分布式人工智能框架 Ray 如何帮助 OpenAI 驱动 ChatGPT

这种管理复杂计算过程的能力听起来有点像 Kubernetes 对云计算基础设施所做的(即大规模编排它以部署应用程序)。

“Ray,它在上面一层,”Stoica 回应道,他指的是计算堆栈。“因为 Ray 是为程序员准备的。它也在做一些资源管理等等,但它是在 Kubernetes 之上的。”

他指出,谷歌最近在 GCP 上构建了一个机器学习平台,结合使用了 Ray、Kubernetes 和Kubeflow

04

天空计算更新

 

最后,我请 Stoica 更新了我们 2021年 8 月关于“天空计算”的对话,他和他在伯克利的同事们将这个术语称为互操作云计算的新时代。11 月,他的伯克利实验室发布了 一个开源的“天空计算的云间代理” SkyPilot,作为实现这一愿景的第一步。

伯克利的 Zongheng Yang 解释说,“给定一项工作及其资源需求(CPU/GPU/TPU),SkyPilot 会自动找出哪些位置(区域/区域/云)具有运行该工作的计算能力,然后将其发送到成本最低的位置执行。

分布式人工智能框架 Ray 如何帮助 OpenAI 驱动 ChatGPT

SkyPilot 运行在云计算层之上,因此(与 Kubernetes 一样)与 Ray 的工作没有直接关系。然而,有趣的是,SkyPilot 的早期用例是在云端运行机器学习训练。因此,在依赖现代机器学习的技术堆栈中,SkyPilot 似乎被定位为 Ray 的补充部分。

05

解决日益增长的计算需求

 

如果说 Ion Stoica 的工作——从他帮助建立的海量数据公司,到他与学生一起做的天空计算工作——有一个吞吐量,那就是他想为他所说的“这个世界的计算需求”找到解决方案。随着ML 对于企业和整个社会变得越来越重要,计算将需要分布式。Stoica 说,Ray 就是这个平台(Anyscale 也运行 Ray 的托管服务版本)。至于他的天空计算概念,那是关于分配云计算的负载和成本,比Ray 低一层。

最后,Stoica 期望看到更多的开源 ML 模型问世,因为许多企业将不习惯依赖于一家公司来提供ML,比如 OpenAI,尤其是现在微软即将拥有其 49% 的股份。当然,更多的 ML 模型会增加对分布式计算解决方案的需求。不过别担心,Ion Stoica 会帮你搞定的。

想要了解更多,欢迎入群交流!

权益福利:

1、AI 行业、生态和政策等前沿资讯解析;

2、最新 AI 技术包括大模型的技术前沿、工程实践和应用落地交流(社群邀请人数已达上限,可先加小编微信:15937102830)

分布式人工智能框架 Ray 如何帮助 OpenAI 驱动 ChatGPT

关于MoPaaS魔泊云

源于硅谷、扎根中国,上海殷泊信息科技有限公司(MoPaaS)是中国领先的人工智能(AI)平台和服务提供商,为用户的数字转型、智能升级和融合创新直接赋能。针对中国AI应用和工程市场的需求,基于自主的智能 PaaS 云平台专利技术,MoPaaS 在业界率先推出开放的AI平台为加速客户AI应用项目落地提供高效的GPU算力优化和模型开发运维 (ModelOps) 能力和服务。MoPaaS AI平台已经服务在教学科研、工业制造、能源交通、互联网、医疗卫生、政府和金融等行业超过300家国内外满意的客户的AI技术研发、人才培养和应用落地工程需求。MoPaaS 致力打造全方位开放的AI技术和应用生态圈。MoPaaS 被Forrester评为中国企业级云平台市场的卓越表现者(Strong Performer)。

分布式人工智能框架 Ray 如何帮助 OpenAI 驱动 ChatGPT

  END  

 

▼ 往期精选 ▼

 

1、Midjourney创始人David Holz关于生成式AI的访谈

2、GPT-4 闪亮登场:比 Chat GPT 更大更好,但 OpenAI 还是不说为什么 !

3、图灵奖获得者 Yoshua Bengio 认为 ChatGPT 是一个“警钟”

4、口述历史,探析ChatGPT的创造历程,ChatGPT的内部故事

▼点击下方“阅读原文”,查看文章来源!

 

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy