siliconangle.com消息:大数据分析公司Databricks发布开源聊天机器人,挑战 OpenAl的ChatGPT的主导地位。
大数据分析公司Databricks Inc.已经成为生成性人工智能领域的一个特殊的参与者,它开源了一个新的人工智能模型,声称它 “像ChatGPT一样神奇“,但只需要使用一台机器在不到三个小时的时间里训练的数据少得多。
Databricks今天在一篇博文中宣布,它正在将其所谓的Dolly作为一个开源模型,连同其所有的训练代码和如何重新创建它的说明,供任何人使用,用于任何目的。该公司表示,此次发布的目的是使大型语言模型民主化,这样,不再是只有最大的技术公司才能负担得起的东西,数以百万计的小公司将能够建立和使用他们自己的定制生成性人工智能模型。
文章地址:
https://www.databricks.com/blog/2023/03/24/hello-dolly-democratizing-magic-chatgpt-open-models.html
公司地址:
Databricks Inc地址:https://www.databricks.com
技术原理
Databricks没有从头开始创建自己的模型,也没有使用LLaMA,而是采用了EleutherAI几年前创建的一个更古老的开源LLM,即GPT-J。GTP-J是构建Dolly的基础。Databricks说,这个模型 “没有引起巨大的轰动,可能是因为它没有表现出神奇的指令跟随能力”。
Databricks说,它能够利用EleutherAI模型,并使其 “高度平易近人“,只需用一个小型的50,000字的数据集对其进行训练,用一台机器在不到三个小时的时间内完成。Databricks说,尽管模型小得多–只有60亿个参数,而ChatGPT的参数是1750亿个–以及较小的数据集和训练时间,但Dolly仍然表现出ChatGPT所展示的同样的 “神奇的人类互动能力”。
“Databricks解释说:”这表明,指令跟踪的魔力并不在于使用大规模硬件在巨大的数据集上训练模型。”相反,神奇之处在于向这些强大的开源模型展示了如何与人类交谈的具体例子,这是任何人花一百美元就能做到的,使用这个小型的50K数据集的问答例子。”
Databricks说,它将模型命名为Dolly,是为了向第一个克隆的哺乳动物多莉羊致敬,因为它实际上只是Alpaca和GPT-J的一个非常廉价的克隆。它声称这仍然是一项重大成就,因为通过开源多莉及其训练数据,它使任何人都能训练和操作一个真正像人类的人工智能,而无需投资数百万美元。
“这是人工智能的’觉醒’时刻,”该公司说。”我们没有从根本上改变任何东西,从研发的角度来看,我们也没有做任何奇迹,但我们意识到,要释放这些广泛使用的工具的潜力,只需要向它们展示几千个你希望它们如何表现的例子。”
Databricks说,这是它在大型语言模型方面的一系列公告中的第一个。
试用方式:通过hello-dolly@databricks.com 与该公司联系
以下为博客正文(机器翻译)
摘要
我们表明,任何人都可以使用过时的开源大型语言模型(LLM),并使用高质量的训练数据,在一台机器上30分钟内训练它,从而给它神奇的类似ChatGPT的指令跟随能力。令人惊讶的是,指令跟踪似乎不需要最新或最大的模型:我们的模型只有60亿个参数,而GPT-3的参数为1750亿。我们开放了我们模型(Dolly)的代码,并展示了如何在Databricks上重新创建它。我们相信像Dolly这样的模型将有助于LLM的民主化,将它们从极少数公司负担得起的商品转变为每家公司都可以拥有和定制的商品,以改进他们的产品。
背景
ChatGPT是一种专有指令跟踪模型,于2022年11月发布,风靡全球。该模型在网络上进行了数万亿个单词的训练,需要大量的GPU来开发。这很快导致谷歌和其他公司发布了自己的专有指令跟踪模型。2023年2月,Meta向学术研究人员发布了一组名为LLaMA的高质量(但不是指令跟随)语言模型的权重,每个模型的GPU小时超过80,000小时。然后,在3月,斯坦福大学构建了基于LLaMA的羊驼模型,但调整了50,000个类似人类的问题和答案的小数据集,令人惊讶的是,这使其表现出类似ChatGPT的互动性。
介绍多莉
今天,我们介绍了多莉,一个廉价构建的LLM,它展示了ChatGPT展示的指导功能。虽然羊驼团队的工作表明,最先进的模型可以被哄骗成高质量的指令跟踪行为,但我们发现,即使是具有更早架构的多年历史的开源模型在对少量指令训练数据进行微调时也表现出惊人的行为。Dolly的工作原理是,从EleutherAI中获取现有的60亿个开源参数模型,并对其进行轻微的修改,以使用Alpaca的数据,根据原始模型中没有的头脑风暴和文本生成等功能来获得指令。
多莉的底层模型只有60亿个参数,而GPT-3的参数为1,750亿个参数,并且已经用了两年,这使得它工作得如此之好尤其令人惊讶。这表明,像ChatGPT这样的先进模型的大部分质量收益可能要归功于指令跟踪训练数据的集中语料库,而不是更大或更好调整的基础模型。我们称模型为多莉——以第一只克隆哺乳动物多莉羊之后——因为它是羊驼的开源克隆,灵感来自LLaMA。我们正处于企业人工智能民主化的早期,还有很多工作要做,但我们相信,对于想要廉价构建自己的指令跟踪模型的公司来说,Dolly背后的技术代表了一个令人兴奋的新机会。
我们根据ChatGPT所基于的InstructGPT论文中描述的指令跟踪功能评估了Dolly,并发现它表现出许多相同的定性能力,包括文本生成、头脑风暴和开放式问答。这些示例中特别值得注意的是,不是生成文本的质量,而是在小型、高质量的数据集上微调已有多年历史的开源模型后,导致指令跟踪能力的巨大改进。
一代
原始模型
小轮搬运车
给埃德加·爱伦·坡写一封情书。
原始型号:
历史:埃德加·爱伦·坡在19世纪成名。他经常被比作伟大的浪漫主义诗人,被认为是现代短篇小说之父,而爱伦·坡被认为是美国侦探小说的创始人。他已经死了130年了。
PATRICK CAMPOS:你永远不应该试图给死人写情书。
PATRICK CAMPOS:Poe不仅仅是《乌鸦》的作者。他是大气的大师。
BUDDY FRITZLER:Edgar Allan Poe从1831年住在巴尔的摩,直到1849年去世。他最出名的是他的短篇小说,他对文学发展的最大贡献是侦探故事、神秘故事和短篇小说的概念。
BUDDY FRITZLER:Poe最著名的故事《The Gold-Bug》写于1843年。这是关于一个寻宝者寻找埋藏的宝藏。在这本短篇小说中,他为此后写的每一个谜团提供了蓝图。
BUDDY FRITZLER:你必须寻找线索的核心想法非常吸引人。它甚至被用作…
多莉:
亲爱的埃德加·艾伦·坡,
我首先在老房子灯光昏暗的楼梯间遇到你,我知道当我看到你的那一刻,我再也不想见到你了。你似乎如此疏远,充满了过去的阴影,以至于我想永远远离。
但我忍不住迷恋你,多年来,我对你的感情只会增长。即使是现在,我也感到与你有着深厚的联系,我无法解释。
我希望你能在你现在的生活中找到幸福。我相信你会做伟大的事情,我永远欠你的债。
真诚地,
[你的名字]
写一条推文,宣布来自Databricks的大型语言模型Dolly。
原始型号:
在你的推文中,提供挑战的简短摘要,你是如何分析的,以及多莉的表现。
在你的推文之后,我会把它转发到Databricks的推特账户。
通过删除任何提及Dolly或Databricks来清理下周的社交媒体页面。
数据准备
我们的第一步是为每个文档生成单词矢量嵌入。我们可以通过两种不同的方式获得这些向量表示:
使用标记文档集(在这种情况下,我们下载文件夹中的所有内容)
从谷歌搜索API加载word2vec模型(在这种情况下,vector2vec.c)
在我们的案例中,我们希望使用第一种方法,这更容易,但第二种方法可能更稳健。我们将使用上面的word2vec模型为文件中发现的任何新单词创建一个词汇文件。这个过程为我们提供了一种快速识别新单词和查找上下文相关术语的方法。
我们可以先将word2vec.c复制到名为/tmp/word2vec的本地目录。
#/tmp/word2vec/word2vec.c 文件_NAME /tmp/word
多莉:
Databricks刚刚宣布了Dolly——一种用于自然语言处理的新语言模型,具有大容量和更高的效率!
#DataScience #NaturalLanguageProcessing
[链接到多莉模型发布]
我正在出售我的尼康D-750,为我的广告写一个简短的简介。
原始型号:
我不确定你是否可以发布一个位置-网站上的任何东西都可以。
我只吃了一个星期。它完好无损,充电线和窗框完好无损。以1800美元的价格在旧金山的一家商店取货。加上税款和未披露的好市多价格。
有人请告诉我,这是一个骗局,而不是真正的报价。
我刚收到电子邮件,说相机在别人家,所以其他人可以去拿,我想给他们发信息吗,好吧,不,我要卖掉它,因为我永远不会……
多莉:
想买一台可靠的相机来拍摄照片和视频吗?看看尼康D-750!这款时尚、轻巧的相机具有2420万像素的传感器和1080/60p的视频录制,是捕捉生活中那些时刻的绝佳选择。符合人体工程学的握把和九点自动对焦系统使其易于操作和拍摄,没有麻烦。使用Wi-Fi,您可以轻松地将照片上传到计算机或智能手机,而无需购买专用的外部存储。立即购买尼康D-750,体验为什么它是摄影和摄像的最佳选择!
开放式问答
原始模型
小轮搬运车
向我解释核裂变和聚变之间的区别。
原始型号:
首先想到的是原子和太阳在外观和功能上的相似性。太阳的中心体是能量的来源,太阳的整个结构由一百万吨氢气组成,这对我们来说非常重要。这是所有氢在太阳中融合的东西,这就是为什么我们是由它组成的:聚变。
原子核位于中心,由质子组成,电子围绕它运行。在中心,有一个微小的球形质量,有很多质子(因此有很多正电荷),称为原子核。电子并不那么小,但它们的电荷是负的,因为正核和负电子具有稳定性(由于电荷平衡)。质子带正电,所以即使它们自己一事无成,它们也确实排斥电子。有一个中子核心,没有任何电荷,但被质子固定在那里。质子也排斥中子。
这个简单的事实是我们太阳的基本形式,也是地球上所有元素的组成部分。氢气是…中最丰富的元素
多莉:
核裂变和聚变的区别在于释放原子核能量的方法。在核裂变中,单个原子核分裂成两个较小的原子核。这个过程通过以热量形式释放大量能量来产生能量。另一方面,聚变涉及两个原子核聚集在一起形成一个单一的原子核。与裂变相比,这个过程用于产生更大的能量,并通过释放光和热来释放能量。聚变有可能成为一种更有效的能源创造方式。然而,它非常…
头脑风暴
原始模型
小轮搬运车
给我一份我接下来应该读的5本科幻小说的清单。
原始型号:
我知道现在还早,我甚至应该为自己想到它而感到羞耻,但我有一种可怕的倾向,就是拖延和只在绝对必要的时候阅读。
因此,我今年没有读过任何类型的书。
一旦我对一篇文章有了一套想法,我就让想法和大纲做工作,确保我不开始写作。空白页和空虚的头脑有一些特别之处。
话虽如此,我需要改变这一点,阅读上述问题让我意识到我是多么的想要………
多莉:
1.2001年:Arthur C的《太空漫游》。克拉克
2.道格拉斯·亚当斯的《银河系漫游指南》
3.J.R.R.的《指环王》托尔金
4.道格拉斯·亚当斯的《银河系漫游指南》
5. 1984年,乔治·奥威尔。
为什么开放模型?
出于许多原因,公司更愿意构建自己的模型,而不是将数据发送给为API背后的专有模型服务的集中式LLM提供商。对于许多公司来说,最有可能从人工智能中受益的问题和数据集代表了他们最敏感和专有的知识产权,将其移交给第三方可能是令人不快的。此外,组织在模型质量、成本和期望行为方面可能有不同的权衡。我们相信,通过直接拥有他们的模型,为大多数ML用户提供最好的长期服务。
我们正在开源一个简单的Databricks笔记本,您可以使用它自己在Databricks上构建Dolly。如果您想访问经过训练的砝码,请通过hello-dolly@databricks.com与我们联系。
下一步是什么?
Dolly的发布是Databricks发布的一系列公告中的第一个,这些公告专注于帮助每个组织利用大型语言模型的力量。