人工智能模型“深呼吸”会导致数学分数在学习中飙升

688次阅读
没有评论

谷歌DeepMind研究人员最近开发了一种技术,通过使用其他人工智能模型来改善提示,以提高ChatGPT等人工智能语言模型中的数学能力——告诉人工智能模型该做什么的书面说明。它发现,使用人类风格的鼓励极大地提高了数学技能,这与之前的结果一致。

在本月在arXiv上列出的一篇名为“作为优化器的大型语言模型”的论文中,DeepMind科学家介绍了通过PROmpting优化(OPRO),这是一种提高OpenAI的ChatGPT和谷歌的PaLM 2等大型语言模型(LLM)性能的方法。这种新方法通过使用自然语言来指导法学硕士解决问题,从而回避了传统数学优化器的局限性。“自然语言”是人类日常语言的一种花哨的表达方式。

研究人员写道,我们不是正式定义优化问题并使用编程求解器推导更新步骤,而是用自然语言描述优化问题,然后指导LLM根据问题描述和之前找到的解决方案迭代生成新的解决方案。

通常,在机器学习中,使用基于衍生优化器等算法的技术是提高人工智能模型性能的指南。将模型的性能想象为图形上的曲线:目标是找到这条曲线上的最低点,因为这是模型犯错误最少的地方。通过使用曲线的斜率进行调整,优化器有助于模型越来越接近理想的低点,使其在设计完成的任何任务时都更加准确和高效。

OPRO没有依靠正式的数学定义来执行这项任务,而是使用自然语言描述的“元提示”来为优化过程奠定基础。然后,LLM根据问题的描述和以前的解决方案生成候选解决方案,并通过给每个解决方案分配质量分数来测试它们。

在OPRO中,两个大型语言模型扮演着不同的角色:记分器LLM评估准确性等目标函数,而优化器LLM根据过去的结果和自然语言描述生成新的解决方案。评估了记分器和优化器LLM的不同配对,包括PaLM 2和GPT变体等模型。OPRO可以通过让优化器迭代生成更高得分的提示来优化得分者LLM的提示。这些分数有助于系统识别最佳解决方案,然后将这些解决方案重新添加到下一轮优化的“元提示”中。

“深呼吸,一步一步地做这件事”

也许DeepMind研究中最有趣的部分是特定短语对输出的影响。像“让我们一步一步地思考”这样的短语促使每个人工智能模型在对照数学问题数据集进行测试时产生更准确的结果。(由于一篇名为“大型语言模型是零射击推理者”的著名论文,这项技术在2022年5月广为人知。)

考虑一个简单的单词问题,例如,“Beth在一周内烤了四批二十几批饼干。如果这些cookie在16人之间平等共享,那么每个人消耗多少cookie?”2022年的论文发现,您不只是向聊天机器人单独输入这样的单词问题,而是在它前面加上“让我们一步一步地思考”,然后粘贴问题。人工智能模型结果的准确性几乎总是提高,并且与ChatGPT配合良好。

有趣的是,在这项最新研究中,DeepMind研究人员发现,当与谷歌的PaLM 2语言模型一起使用时,“深呼吸并逐步解决这个问题”是最有效的提示。该短语在针对GSM8K的测试中获得了80.2%的最高准确率分数,GSM8K是小学数学单词问题的数据集。相比之下,在没有任何特殊提示的情况下,PaLM 2在GSM8K上仅获得了34%的准确率,而经典的“让我们一步一步地思考”提示获得了71.8%的准确率。

那么,为什么这有效呢?显然,大型语言模型不能深呼吸,因为它们没有肺或身体。他们也不像人类那样思考和推理。他们所做的“推理”(而“推理”在一些人中是一个有争议的术语,尽管它很容易被用作人工智能中的艺术术语)是从从书籍和网络中抓取的大量语言短语数据集中借来的。这包括问答论坛等内容,其中包括许多“让我们深呼吸”或“一步一步思考”的例子,然后再展示更仔细的推理解决方案。这些短语可以帮助LLM利用更好的答案,或者从它在训练期间吸收到神经网络的数据集中产生更好的推理或解决问题的例子。

尽管找出给予LLM人类般的鼓励的最佳方式对我们来说有点困惑,但这对OPRO来说不是问题,因为该技术利用大型语言模型来发现这些更有效的提示短语。DeepMind研究人员认为,OPRO最大的胜利是它能够筛选许多可能的提示,以找到为特定问题提供最佳结果的提示。这可以让人们在未来从法学硕士中产生更有用或更准确的结果。

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy