GPT-4能通过图灵测试吗?

652次阅读
没有评论

Does GPT-4 Pass the Turing Test?

C Jones, B Bergen
[UC San Diego]

GPT-4能通过图灵测试吗?

要点:

  • 在公开的在线图灵测试中评估GPT-4,最佳的GPT-4提示通过了41%的测试,超过了ELIZA(27%)和GPT-3.5(14%),但低于随机猜测(50%)和人类表现(63%)。
  • 参与者的决定主要基于语言风格(35%)和社交情感特征(27%),而不是是否智能,这表明这个测试衡量的是自然的交流/欺骗能力,而不仅仅是智能。
  • 参与者的身份统计数据,如教育程度、对LLM的熟悉程度,都无法预测检测率,这表明即使专家也容易受到欺骗。
  • 尽管作为智能测试受到批评,图灵测试仍然相关,因为它可以跟踪欺骗能力并分析人们判断人类特征所用的策略和标准。
  • 最佳的GPT-4提示通过率达到41%,但没有提示能明确通过图灵测试(按照通过50%或等同于人类表现的标准),提示工程具有挑战性,但进一步改进似乎是可能的。
  • 该测试框架有助于理解大众对人工质量的假设,参与者更关注语言风格的流畅性和社交情感因素,而不是智力。
  • ELIZA 27%的成功突显了ELIZA效应,并表明智力不足以通过测试,讯问者认为它过于不合作,不可能是一个现代AI
  • 结果表明当前的LLM在正确的环境下常能欺骗,但可靠通过图灵测试可能需要进一步的进步,欺骗能力可能会对社会造成严重影响。

动机:评估GPT-4在公开在线图灵测试中的表现,探讨其是否能通过图灵测试,以及参与者判断的主要依据和其对社会的潜在影响。
方法:采用了在线图灵测试的两人对话形式,将GPT-4作为被询问者,通过与人类参与者进行对话来评估其通过图灵测试的能力。
优势:GPT-4在测试中表现出色,超过了ELIZA和GPT-3.5的基准,但仍不及人类参与者。研究发现,参与者的判断主要基于语言风格和社会情感特征,支持单独智能不足以通过图灵测试的观点。

评估了GPT-4在公开在线图灵测试中的表现,发现其能力超过了基准模型,但仍不及人类参与者,同时支持单独智能不足以通过图灵测试的观点。

https://arxiv.org/abs/2310.20216 
GPT-4能通过图灵测试吗?
GPT-4能通过图灵测试吗?

GPT-4能通过图灵测试吗?
Image on 2023-11-02 05.42.12 AM
 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy