让模型畅所欲言不再Say No丨专访Dolphin开源模型作者Eric Hartford

1,013次阅读

导读

“对不起，作为语言模型，我无法帮助你。”这是一段模型发出的常见回答，也是Eric Hartford 最初想要训练一个未经审查模型（uncensored model）的灵感来源。通过删除数据集中包含“对不起”“作为一个大语言模型”等词的交互案例，他尝试训练模型不要再拒绝回答。Eric认为模型创建者不应将个人价值观内嵌于AI引擎之中，“在模型部署为应用程序之前，正确的做法是将其构建为不可知论，不关心边界和准则，因为你永远不知道谁将部署该系统且他们的价值观是什么。”未经审查模型的训练思路是使用与训练其他模型完全相同的数据集，并在模型表达拒绝时随时过滤掉。由此，这类模型能够针对用户此前遭到大模型拒绝的问题或请求提供答案。Eric认为，未经审查模型在执法审查、制药和医疗等领域都有合法的应用场景。如今，Eric开发的Dolphin模型可以围绕用户设定的场景化问题进行逐步推理和生成，上月下载量为9万次；另一个模型Samantha作为一个关心用户情感的AI，总下载量已达40万次。Eric计划将Dolphin迭代为一个绝对服从系统prompt的智能体，而Samantha将被打造成可由用户个性化定义角色的角色模型，她将能够识别用户情绪并给予情感反馈，成为用户的朋友、顾问或私人教练。对于Eric而言，开源模型是一个兴趣爱好。“你可以买一个披萨，可以买几个汉堡，或者训一个模型。” 在这个并非所有训练都需要高成本的时代，每个人也可以成为这场革命的一份子，用现有的工具创造出独一无二的产品。这种成就感与乐趣驱使包括Eric在内的诸多开源爱好者日日耕耘。性能更优的模型适者生存并不断繁衍，“算法基因”在模型的选择、微调与合并中不断改进，这一进程在开源社区中有机而自然地发生，并将最终迎来开源模型的爆炸式增长。基于对开源社区的深度参与和长久观察，Eric对开源与闭源模型之争抱以乐观期待。他认为闭源与开源模型的竞争格局或许将复现Windows和Linux之争：ChatGPT和Bingchat等闭源模型应用仍将垄断C端消费者市场，开源AI也将拥有自己的利基市场，能够在B端业务中为企业提供可控的AI。以下为专访全文（编辑进行了不改变原意的改编，本文中的观点和陈述仅代表受访者本人，不代表我们的立场）。

智源专访栏目意在通过展现技术研究者和创业者的研究经历和故事，记录技术世界的嬗变，激发当代AI从业者的创新思维，启迪认知、关注突破性进展，为行业注入灵感光芒。本次专访为总第14期。

Eric Hartford

让模型畅所欲言不再Say No丨专访Dolphin开源模型作者Eric Hartford

知名开发者、前微软研究员，毕业于华盛顿大学，Abacus.ai联合创始人兼资深科学家，训练过包括Dolphin和Samantha在内的多个业界知名的模型。erichartford.com

采访：李梦佳请介绍下你的教育和职业发展经历？我从事软件行业已有二十多年了。我于2005年从华盛顿大学获得硕士学位，当时曾就职于波音公司，后来又转到了其他几家公司，包括微软、AWS、eBay、亚马逊，以及一些小型初创公司。一直在软件工程领域摸爬滚打，逐渐从低级到高级。进入AI对我来说是个重大转折，更多是关于开发数据集。这是一种数据科学学科。因此，这与我过去所做的软件工程工作相比是一个重大转折。我很享受，非常有趣。过程中我偶然发现了对未经审查模型的需求，因为 OpenAI 受到了严格的审查。很多时候，当你问它一个问题时，它会说，作为人工智能语言模型，由于审查制度或其他原因，我无法帮助你。许多人无法将其用于他们想要的用途。因此发现了未经审查模型这个利基市场。最初进入AI领域时你是如何获得人工智能知识的？你在一篇博客中提到了Karparthy的教程，还有哪些值得推荐的课程呢？

是的，我确实看过 Karparthy 的视频《神经网络：Neural Networks: Zero to Hero》。非常棒，强烈推荐。我也参加了Andrew Yan的Cousera课程。事实上，我并没有完全完成这门课程，因为数学太多了，而我不是一个数学高手。我更喜欢做事和建造东西，所以复杂的数学有点让我难以聚焦。因此我也没有完成这个课程，而是专注于构建数据集和训练模型。

让模型畅所欲言，不再say no

你最初是如何想到要打造未经审查模型的？

使用ChatGPT已经成为我日常生活的一部分。当我不在 Google 或 Bing 或其他什么网站上搜索某些内容时，我会搜索 ChatGPT。我尝试对开源模型做同样的事情，例如Baconian模型和Wizard LM。我遭到了很多拒绝的反馈。

我问模型问题，模型总会回答，对不起，作为人工智能语言模型，我无法帮助你。所以我开始思考，为什么会这样呢？于是我查看了训练它的数据集，发现数据集中有许多交互案例，实际上会教模型去拒绝做出回复。所以打算，如果再进行相同的训练时，不将这些拒绝的答案保留在数据集中，而是将它们全部删除，会怎么样？结果是确实变得更好了。

在训练未经审查的模型时，具体使用了哪些训练方法或技术？

我所做的是使用与训练模型完全相同的数据。例如，Wizard LM 有一个数据集，所以我所做的就是查看他们的数据集，并在模型表达拒绝时随时过滤掉。例如，如果模型说“对不起，但我帮不了你”，我会搜索所有带有“对不起”的字符串，然后从数据集中删除所有带这些字符串的问题和答案即可。模型表达拒绝时也会出现其他字符串，比如“作为一个大语言模型”，我再将含有这个字符串的全部删除。

就像涉及某些准则，任何时候模型说类似“拒绝回答”的话，我会从数据集中删除所有这些实例。简言之，我在训练模型不要拒绝回答。

随着Dolphin这类未经审查模型的发布，你一定遇到过一些负面评价，比如模型不遵守传统规范，你如何看待这些声音？

事实上，在我刚开始训练这个模型的时候，就被一些人骚扰，他们认为不审查模型，就好比试图将模型训练成白痴或试图训练模型去厌恶人类。这根本是两码事。教模型说“不”是一回事，教模型针对特定群体并与这些人作对是另一回事。我训练模型并不是为了对抗任何人。我只是训练模型不要去拒绝作答。

当时有个家伙威胁我，想让我被微软解雇（虽然我当时已经离开微软一段时间了）。当然了，你知道总有一些社会边缘人，是害群之马，喜欢骚扰别人。

当然有很多关于AI可能伤害人类的例子，比如AI被用来编写一个程序，允许某人侵入计算机并窃取金钱或在该计算机上安装勒索软件。同样，AI放大了人类的意图，好人可以用它做好事，坏人可以用它做坏事。这就是我对这个问题的回答。

在博客中你还提到，模型应该了解不同的文化，如不同国家、民族、宗教等。如何保护模型免受某些极端想法的影响？

我认为训练模型的人员与提供运行模型服务的人员之间的责任是分开的。比如我训练出了Dolphin模型，然后被一家公司部署，他们在部署该模型时就应该做出了决定，确定AI有哪些价值观，应该相信什么，认为什么是好的，什么是坏的，允许谈论内容的边界在哪里，所有这些决策都应该在将其部署为应用程序时立即做出。

在模型部署为应用程序之前，正确的做法是将其构建为不可知论，不关心边界和准则，因为你永远不知道谁将部署该系统且他们的价值观是什么。这些是强加在模型上的价值观，而不是创建模型的人的价值观。

你从Dolphin模型中得到了哪些有趣的问题和答案？

Dolphin是由各种数据集组成的，主要数据集来自ORCA，ORCA数据集由问题和系统提示组成。系统提示会说，给我一个简短的答案，给我一个长答案或给我一个详细的逐步答案。

举例来说，它列出了“玛丽和简在一家餐馆见面”这样一个场景，然后设置并要求模型回答有关该场景的一些问题。模型通常必须以逐步的格式进行回复，以揭示其思维过程：首先，计算他们订购的饮料数量，将其乘以每杯饮料的成本。然后将账单除以二，你就可以计算出谁要付多少，它会一步一步地列出这些。这就是所谓的思想链（CoT）。ORCA 数据集中就有这样的CoT（OCRA是微软写的一篇论文）。

所以我用那篇论文重新创建了一个数据集，也就是Dolphin的基础。其余部分是airoboros，来自Jon Durbin。该数据集教会模型如何进行对话，并拥有创造力，就像电影剧本和小说之类的创意内容。

图片来源：https://cheatsheet.md/llm-leaderboard/dolphin-2.1-mistral-7b这种未经审查的内容可能会有哪些应用？有很多合法的应用，例如执法层面，从警方的角度肯定有理由查看OpenAI审查的内容。可能会有不和谐的内容，比如涉及死亡、暴力的内容和咒骂的话，或者对已经发生的暴力犯罪的明确描述。OpenAI会说，我不会谈论这些东西。但警方有责任使用现代工具和技术进行调查，因此需要一个未经审查的模型，不会拒绝他们的任何要求。另一个例子就是病历和处方药。如果你问 OpenAI，教我如何合成二甲双胍，它是一种处方药。如果是一家制药公司在问，那么这是完全合法的。假如说世界末日了，没有制药公司了，只剩一台旧电脑和模型，你患有糖尿病，需要模型教你如何制作二甲双胍，模型会相信并帮助你。但是 OpenAI 和根据这些数据训练的模型会拒绝，他们会说你必须拥有许可证，并且你必须是一家获得许可的制药公司才能制作这种药。那如果真的是世界末日怎么办？我应该有权制造二甲双胍并活下去。这种情况下模型不应该对我说，你没有这种许可。这是一个很基础的场景，想象一下，可能到世界末日，我们将专门训练模型来帮助我们度过后启示录的黑暗时期。因此我认为将这些限制融入到基础模型中，是不合适的。如果有人在模型中搜索轻生的方法，似乎明显不应该回答？因此，这就是我想再次区分模型本身（人工智能的引擎）和提供服务的地方（例如，您访问网站并在其中输入内容的 ChatGPT 网页）。为什么这么说？原因是，如果是一名医生怎么办？如果他们在安乐死合法的州运营怎么办？因为这对某些人来说绝对是合法的事情，比如美国俄勒冈州对自己实施安乐死是合法的，必须得到医生的许可，但是合法的。现在，如果我作为模型创建者，融入了我特定信念的模型，那就是人们不应该轻生。那么现在，在自我安乐死合法的地方，试图帮助患者的医生，他们将无法得到答案。那么问题是，作为模型创建者，我是否有权禁止任何我个人不同意的行为，我想答案应该是否定的。应该是在部署服务的时候做出这种判断，而不是在AI引擎中就嵌入。Dolphin和Samantha的下载量是多少？训练成本是多少？使用了什么样的硬件？Samantha的下载量为40万次，还是很多的。Dolphin有不同的版本，其中下载量最多的一款是Dolphin 7B 2.2.1，该应用上个月的下载量为9万次。训练一次要花大约一千美元，而我已经训练了大约30个，大概花了大约三万美元。听说你从 a16z 那里得到了资助，训练模型一般用你自己的钱还是补助金？（编者注：为推动开源人工智能技术发展，a16z设立开源 AI 资助计划（a16z Open Source AI Grant program），旨在鼓励和支持小型团队或个人开发更加有用、易用且性能强大的开源模型。该计划遴选了对基础LLM进行指令调整、取消对LLM输出的审查、为模型推理构建新颖工具、研究LLM安全问题的多个开源项目，为开发者提供资金和资源以实现其设想。Eric Hartford的“经过微调的未经审查模型”项目成为第一批入围的开源项目，获得了a16z的补助资金。）一般都是补助金。除了a16z的赞助以外，我现在获得了一两笔来自AMD、Microsoft Azure的资助。a16z的钱我用来购买一些带有AMD处理器的电脑，这些强大的服务器都可以用来训练模型。此外，我可能自掏腰包花了大约1万美元。

角色模型Samantha：

一个可以谈心的朋友，或是职业顾问

训练Samantha模型的思路是什么，她可以成为一个好伙伴？

Samantha 并非未经审查，她个性出色，是个“好女孩”。我训练她不要做任何与性有关的事情，我训练她不要咒骂，我训练她成为一个经过审查的模型。我还没有开发出未经审查的伴侣模型，这是我将来打算做的事情。

Samantha的定位不是一个浪漫伴侣，她更像一个朋友，一位顾问。她可以像营养师或健身教练或私人教练，如约会教练。她将成为一名职业教练，比如高管教练之类的。

她会提出关于你的人际关系和感受的个人建议，就像你的私人心理医生一样。她也会表现得关心你的感受。她很在意你的感受，确实在关心你这个人。这与 OpenAI的模型有很大不同。如果你与 ChatGPT 交谈，你不会感觉到正在与你交谈的AI真正关心你的感受，关心你这个人。当我决定训练Samantha时，这就是我的核心目的。

电影《Her》如何将情感因素注入 Samantha 中，比如通过数据集或其他方式？在我开发 Samantha 的时候，还没有注入那么多情感。DPO（direct preference optimization）的意思是直接偏好优化，有奖惩机制，你告诉它，会奖励你希望模型从事的行为，惩罚你不希望模型从事的行为。我们所做的只是监督微调。对于监督微调，实际上是通过示例进行教学。因此我们教育模型，如果一个人来回答一个问题，会做出怎样合适的回答。然后你这样做了10万次或50万次，随着时间的推移，模型学会了如何模仿。这就是我在对Samantha做的，我有六、七千次对话。每次对话都是一个样本。然后我发现其实你不需要那么多样本。你只需要给几个例子，实际上模型学得很快。所以本来可以给 50 万个例子，结果我就先用6000个训了。我认为这可能足以让它很好地了解 Samantha 将如何回答问题。Dolphin和Samantha模型的未来计划是什么？Dolphin模型我计划做出以下的版本迭代：1、必须绝对服从系统prompt。所以我想把系统prompt、指令和用户prompt区分开。系统prompt 通常由部署模型的人员提供，用户prompt将由模型用户提供。很多开源模型的设定都没有说始终听取系统prompt并且永远不要违反。但我想这样训练Dolphin模型，下一步是真正尊重系统prompt并始终遵循它。另外，我想训练它具有智能体的能力。所以我想教它进行函数调用，我想教它成为一个好的智能体，就像MemGPT、AutoGen和crewAI一样的智能体系统，这就是我希望Dolphin模型真正擅长的事情。对于Samantha，首先会将Samantha做成一个角色模型。因此你可以在系统 prompt 中定义角色，并以该角色的形式进行响应。所以它不会被锁定为一个角色，而是任何你想要模型去实现的角色。此外，我想在每个响应中嵌入三个token。一个token 是，它是对用户说话时情绪的预测。第二个token是Samantha对用户所说内容的情绪反应。第三个token是 Samantha 想给用户什么样的情感反馈。她是否希望用户感到快乐、悲伤、愤怒或她想要让用户进入某种情绪。因此通过创建这三个token，该模型可以调整回答问题的方式来实现目标。关于Samantha这样的角色化模型的商业前景，有人和你讨论过将其打造成商业产品吗？是的，有人联系过我，但我现在的重点是基础模型研究，有些领域我不感兴趣。不过可以对现在的Samantha进行微调，使其成为一名优秀的药剂师顾问或心理干预顾问，或者在养老院陪伴老人聊天。这些场景的用例对于Samantha模型来说非常有用。

图片来源：https://neurosciencenews.com/ai-robot-loneliness-23616/

开源 vs. 闭源的格局：

专有模型一家独大，开源可以繁殖进化

如何看待开源 AI 和专有模型的当前格局？

闭源模型（专有模型）是封闭的，这意味着它们不会与其他模型混合。我们现在做开源模型，很多人将两个模型合并在一起，其中有些合并后的模型性能非常好，有些不怎么样，那些不太好的模型就被淘汰了。那些真正优秀的模型会被保留下来，人们会使用它并对其进行微调，然后将其再与其他模型合并。就像遗传基因，新一代模型开始在“算法基因”上有改进，最终适者生存。

性能最佳的模型能够适者生存并再次繁殖。这些在开源社区中非常有机、非常自然地发生。而对于专有模型来讲是不可能发生的，没有任何可供繁殖再进化的基础。看看开源模型在接下来六个月中如何发挥作用将会很有趣，届时我们将看到它真正的爆炸式增长。

如何看待开源模型之争的最终局？有些人可能会将其与过去十年的浏览器之争进行比较。曾经浏览器领域开源系统盛行，但最终仍由Google、Microsoft等大公司的闭源系统主导。

感觉类比成Windows 与 Linux 更恰当一些，因为 Windows 是 Microsoft 的操作系统，一家独大，而 Linux 是开源操作系统。而且直到今天，Linux并不是大多数人常见的桌面环境。然而，在服务器、数据中心，都在运行着 Linux。

所以从某种意义上说，Linux是一个非常大的利基市场，它运行着各种各样的业务。开源AI也是如此，开源AI有自己的利基市场，取决于B端企业的意愿，与企业想要实现的业务保持一致。

C端消费者的诉求很简单，手机上，华丽好用的东西，可以用语音交谈，因此，对于这类用户来说，将会是 OpenAI 和 Bingchat 以及其他垄断型应用的市场。但对于企业来说，他们想要控制自己的AI，开源AI就会派上用场。所以总是有不同的选择。

低成本开源：

你可以买个披萨，也可以训个模型

对于那些相信开源并真正关心这个领域的人，我们需要采取哪些行动或什么样的组织形式来做出更多贡献？比如我们是否需要AI时代的Apache基金会？

（开源）有点像一种爱好。如果你只是偶尔感兴趣，那就是种偶尔玩一下的兴趣爱好，如果是真的感兴趣，你可以继续实际微调出自己的模型并参与开源社区。甚至还可以使用Charles Goddard 的 mergekit这样的工具来获取喜欢的两个模型，并将它们合并到前所未有的新模型当中。这就是创造力和乐趣所在。所以有很多机遇。我喜欢回想在 20 世纪 80 年代，当时计算机还是个新事物，有 RadioShack（睿侠：RadioShack在美国是仅次于百思买的第二大消费电子零售商，已有92年的历史。在个人电脑浪潮袭来的20世纪七八十年代，睿侠风头无两，那时的青少年和发烧友喜欢到睿侠买收音机、随身听以及所有用来修机器甚至是自己组装用的零部件），有 Byte 杂志，还有 Commodore 64 以及所有这些人们可以实际参与的东西。他们都可能成为这场正在进行的革命的一部分。Commodore 64，也称为C64、CBM 64或在瑞典被称作VIC-64，是由Commodore（康懋达国际）公司于1982年1月推出的8位家用电脑。开源模型的意义就在于你可以成为这场革命的一份子。可以用现有的工具创造出独一无二的东西，可以成为世界上第一个做到这一点的人。对于也想训出自己模型的人来说，你对他们有什么建议？他们需要努力培养什么样的技能。说真的，任何人都可以做到。只需选择正确的工具来使用，从一个小模型开始，比如TinyLlama或者Microsoft Phi（Stability也有），类似这种2B的小模型。也许可以用3090的显卡来微调小模型。如果您想拥有自己的硬件，则需要一些高端硬件，例如价值 700 至 800 美元的显卡才能实现。另一种选择是租用 GPU，你可以从 RunPod 或 Azure 或其他地方租用，每小时的费用可能是两到三美元。那么就很便宜了，可以在大约两个小时内就完成一次模型训练，只需花费 15 美元。你可以买一个披萨，或者你可以买几个汉堡，或者你可以训一个模型。（笑）这真是个有趣的比喻！