OpenAI 9月25日消息,ChatGPT推出语音和图像功能。
https://openai.com/blog/chatgpt-can-now-see-hear-and-speak
我们开始在ChatGPT中推出新的语音和图像功能。它们通过允许您进行语音对话或向ChatGPT展示您正在谈论的内容,提供了一种新的、更直观的界面。
语音和图像为您提供了在生活中使用ChatGPT的更多方式。在旅行时拍一张地标的照片,并就它有趣的内容进行现场对话。当你在家时,拍下冰箱和储藏室的照片,弄清楚晚餐吃什么(并询问后续问题以逐步食谱)。晚饭后,通过拍照,绕过问题集,并与你们两个分享提示来帮助你的孩子解决数学问题。
我们将在未来两周内在ChatGPT中向Plus和Enterprise用户推出语音和图像。语音将在iOS和Android上发布(在您的设置中选择加入),图像将在所有平台上提供。
语音功能
要开始使用语音,请前往移动应用程序上的设置→新功能,然后选择语音对话。然后,点击位于主屏幕右上角的耳机按钮,从五种不同声音中选择您喜欢的声音。
新的语音功能由新的文本转语音模型提供支持,该模型能够仅从文本和几秒钟的示例语音中生成类似人类的音频。我们与专业配音演员合作,创造每个声音。我们还使用我们的开源语音识别系统Whisper将您的口语转录为文本。
图像功能
逐步部署图像和语音功能
OpenAI的目标是构建安全且有益的AGI。我们相信逐步提供我们的工具,这使我们能够随着时间的推移进行改进和细化风险缓解,同时让每个人都为未来更强大的系统做好准备。随着涉及语音和视觉的高级模型,这种策略变得更加重要。
声音
新的语音技术——能够从几秒钟的真实语音中制作逼真的合成声音——为许多创造性和以可访问性为重点的应用程序打开了大门。然而,这些能力也带来了新的风险,例如恶意行为者可能冒充公众人物或实施欺诈。
这就是为什么我们使用这项技术来为特定的用例——语音聊天提供动力。语音聊天是由我们直接合作的配音演员创建的。我们也以类似的方式与他人合作。例如,Spotify正在利用这项技术的力量来试点他们的语音翻译功能,该功能通过在播客自己的声音中将播客翻译成其他语言,帮助播客扩大讲故事的覆盖范围。
图像输入
基于视觉的模型也带来了新的挑战,从对人们的幻觉到依赖模型对高风险领域图像的解释。在更广泛的部署之前,我们与红色团队一起测试了模型,以了解极端主义和科学熟练程度等领域的风险,以及一组多样化的阿尔法测试员。我们的研究使我们能够就负责任使用的几个关键细节进行调整。
使视觉既有用又安全
与其他ChatGPT功能一样,视觉是关于帮助您处理日常生活。当它能看到你看到的东西时,它做得最好。
这种方法直接来自我们与Be My Eyes的合作,Be My Eyes是一个面向盲人和弱视人士的免费移动应用程序,以了解用途和限制。用户告诉我们,他们发现就背景中恰好包含人物的图像进行一般性对话很有价值,例如,当你试图弄清楚你的遥控器设置时,有人出现在电视上我们还采取了技术措施,大幅限制ChatGPT分析和直接陈述人员的能力,因为ChatGPT并不总是准确的,这些系统应该尊重个人的隐私。
现实世界的使用和反馈将帮助我们更好地保护这些保护措施,同时保持该工具的有用性。
关于模型限制的透明度
用户可能会依赖ChatGPT来获取专业主题,例如在研究等领域。我们对模型的局限性是透明的,不鼓励在没有适当验证的情况下使用高风险的用例。此外,该模型精通转录英语文本,但与其他一些语言,特别是那些使用非罗马字母的语言,表现不佳。我们建议我们的非英语用户不要为此目的使用ChatGPT。您可以在系统卡中阅读有关我们的安全方法以及我们与Be My Eyes合作的更多信息,以进行图像输入。
我们将扩大访问权限
此外,企业用户将在未来两周内体验语音和图像。我们很高兴不久后向包括开发人员在内的其他用户群体推出这些功能。
论文地址:https://cdn.openai.com/papers/GPTV_System_Card.pdf