Nature|LLaMA泄漏和对话机器人开源意味着什么

636次阅读
没有评论

Nature|LLaMA泄漏和对话机器人开源意味着什么

原文作者:Davide Castelvecchi

 Open-source AI chatbots are booming — what does this mean for researchers?

 

https://www.nature.com/articles/d41586-023-01970-6?utm_medium=organic_social&utm_source=wechat&utm_campaign=CONR_PF020_ENGM_AP_CNCM_002E6_all 

计算机科学家认为,免费开放的大型语言模型推动了创新的步伐。

自从OpenAI推出了ChatGPT,生成式人工智能(AI)便深受热捧,且热度至今未减。然而,尽管OpenAI和Google这类大型科技公司吸引了大量眼球,并一直在寻找让它们的AI工具“变现”的方法,一些科研人员和小型机构的软件工程师却在酝酿一场更安静的革命。

 

随着大部分大型科技公司日益走向神秘化,这些更小的行动者却一直在坚守该领域对开放的初衷。他们中有小企业、非营利机构和业余爱好者个人,他们的一些行动受到社会目标的驱动,比如扩大技术普及性以及减少技术的伤害。

Nature|LLaMA泄漏和对话机器人开源意味着什么

这场开源行动出现了“井喷”,纽约市AI研究所EleutherAI的主任、计算机科学家Stella Biderman说。尤其是大型语言模型(LLM),这种需要海量数据的人工神经网络驱动着各种面向文本的软件——从对话机器人到自动化翻译器。致力于普及AI技术的纽约公司Hugging Face已经在其网站上列出了超过100个开源的LLM。

LLaMA泄漏

去年,Hugging Face引领科研和学术志愿者组成的联盟——BigScience——开发并发布了迄今最大的LLM之一。该模型名为BLOOM,是一个面向研究人员设计的多语言开源系统。它一直作为一个非常重要的工具:描述该系统的论文已有300多次引用,引用它的大部分为计算机科学研究。

 

2月,Facebook的母公司Meta推出了可供特定外部开发者免费使用的模型LLaMA,大大助推了这场开源运动。不到一周,LLaMA的代码就被泄露到网上,可供任何人下载。

 

LLaMA的开源给AI研究人员带来了天翻地覆的变化。它比其他LLM都小得多,意味着它不需要大型计算设备来储存预训练模型或用于其他用途的改造,比如作为数学助手或是客服机器人。LLaMA最大的一版含有650亿个参数——这些参数是该神经网络在初始、通用训练中设置的各种变量。这只有BLOOM的1760亿个参数的一半不到,也是Google最新的LLM——PaLM2的5400亿个参数的几分之一。

 

“有了LLaMA,一些最有意思的新想法突然进入了快车道。”Meta的AI研究副主席、加拿大麦吉尔大学的计算科学家Joelle Pineau说道。

 

开源开发者一直在实验进一步压缩LLaMA的各种方法。一些方法保持参数量不变但降低参数的精确性,而且竟然不会导致性能出现大幅下降。其他压缩神经网络的方法还包括减少参数量,比如利用一个大型预训练网络的响应而不是直接用数据训练另一个更小的神经网络。

 

LLaMA泄露后不到几周,开发者就创建了能用笔记本电脑运行的各种版本,甚至还能在树莓派(Raspberry Pi)上运行,树莓派是一个只有信用卡大小的计算机,是“创客”(maker)社群的最爱。Hugging Face目前主要使用的是LLaMA,而且不计划推出BLOOM-2。

 

AI工具的压缩可进一步推动它们的普及性,比勒陀利亚大学的计算机科学家Vukosi Marivate说。它可以帮助一些组织,比如 Marivate等非洲研究人员领导的Masakhane社群就想让LLM也能用于缺少现有书面文本训练模型的语言。但推动普及性的努力仍有很长的路要走:对低收入国家的研究人员来说,即使一台最高配置的笔记本电脑也望尘莫及。“一切都很好,”Marivate说,“但我也想请你定义一下‘便宜’的概念。”

查看后台

多年以来,AI研究人员一直按照惯例将他们的代码开源,并发布在arXiv这类服务器上。美国北卡罗来纳大学的计算机科学家Colin Raffel说:“人们逐渐领悟到,如果我们愿意分享,这个领域会进步地更快。”比如,当前最先进的LLM的核心技术是“Transformer架构”,该技术由Google原创,并开源发布。

 

神经网络的开源能让研究人员看到后台的运作,尝试理解这些系统为何有时候会给出不可预测的回答,并从预训练的数据那里学会一些偏见和不良信息,美国布朗大学的计算机科学家Ellie Pavlick说。Pavlick与BigScience项目合作,也是Google AI的员工。“一个好处是很多人——尤其是学术界的人——都能为缓解策略出谋划策,”她说,“如果你有一千双眼睛盯着,你就能想出更好的办法。”

 

Pavlick的团队对BLOOM等开源系统进行了分析,并找到了发现和纠正从训练数据中带入偏见的方法。这方面的一个经典案例是语言模型总是把“护士”与女性以及“医生”和男性联系在一起。

预训练瓶颈

即使开源热潮持续下去,推动语言AI变强大的力量还是只能来自最大玩家。只有极少数公司有能力从头开始创建语言模型,并向最尖端的技术进发。预训练LLM需要的资源是巨大的——研究人员估计OpenAI的GPT4和Google的PaLM2使用数千万美元的计算时间,除此之外还有很多“秘密配方”。

 

“我们有一些通用配方,但还有一些不会写下来的小细节,”Pavlick说,“这不是说有人给了你一些代码,你按一下按钮就能得到一个模型了。”

 

预训练只是少数机构和人才能做的事,”纽约的开源软件公司Stability AI的研究员Louis Castricato说,“这仍是一个巨大的瓶颈。”

 

其他研究人员提醒道,让强大的语言模型更普及会增加它们被不当利用的几率。EleutherAI的联合创始人、伦敦AI公司Conjecture的首席执行官Connor Leahy认为,AI很快会聪明到给人类带来存在性风险。他说:“我认为这些东西都不应该开源。”

 

 

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy