微软高管称即将发布GPT-4,或实现文本、图像、语音等多模态运行

1,322次阅读
没有评论

据悉,近日,微软德国首席技术官安德烈亚斯·布劳恩(Andreas Braun)对媒体表示:“我们即将推出 GPT-4,届时我们将推出多种模态的模型,提供完全不同的可能性,例如视频。”

即将发布的 GPT-4,是 OpenAI 创建的预训练生成模型(Generative Pre-trained Transformer,GPT)的最新版本。作为一种深度学习技术,该系列的模型将通过人工神经网络实现对包括文章生成、代码编写等在内的诸多复杂的自然语言任务的处理。

聊天机器人 ChatGPT 基于 GPT-3.5 架构开发,自推出以来已迅速风靡全球。从理论上说,GPT-4 在技术上将会比 ChatGPT 更进一步。

大型语言模型中,模态指的是模型能够处理的输入类型,包括文本、语音、图像、视频等多种输入源。多模态大型语言模型,意味着其能够从各种类型的输入源中获取信息并正常运行。

微软高管称即将发布GPT-4,或实现文本、图像、语音等多模态运行

图丨(来源:Pixabay)

相较于基于文本的以 ChatGPT 为主的单模态大型语言模型,大大增加了从图像、视频等内容中获取信息的可能性。

据了解,多模态大型语言模型 GPT-4 或将支持文本、图像、声音和视频等四种模态。但由于目前官方尚未公布 GPT-4 的具体细节,因此还不清楚布劳恩在活动上分享的是 GPT-4 特有的多模态,还是其他的多模态。

在微软德国业务战略总监霍尔格·肯恩(Holger Kenn)看来,多模态人工智能“不仅可以将文本转换成相应的图像,还可以将文本转换成音乐和视频”。

经媒体证实,GPT-4 将能够支持基本上任何一种语言。这也就是说,那些用英语提出问题的使用者,可能会得到日本语的回答。

这听起来似乎非常奇怪。毕竟使用英语发问的人,怎么会希望得到日本语的回答呢?这中间的关键在于,该模型实现了跨越不同语言进行知识的传播。

也就是说,如果提问者想要的答案,只存在于某一种语言中,那么该模型就能够将答案自动转换为提问者在提问时所使用的语言。

除了具有多模态功能以外,GPT-4 还能够提供比 ChatGPT 生成答案更快的响应速度,并有望提供更加人性化的答案。

值得注意的是,作为一种基于 Web 的语言模型,ChatGPT 目前还没有移动应用程序,但 OpenAI 可能正在开发支持 GPT-4 的移动应用。

与此同时,据布劳恩透露,GPT-4 还将为生成式人工智能开辟新的企业用例。比如,借助 GPT-4,可用文本形式记录下语音电话内容,为客服人员等工作者节省接听电话后再手动输入关键信息的时间。

微软德国高级人工智能专家克莱门斯·西伯(Clemens Sieber)对媒体表示:“这可以为荷兰的一家每天会接到 3 万个电话的微软客户,每天节省 500 个小时的工作时间。”

他进一步介绍说:“有三个比较常见的使用案例,分别是回答只有员工才能访问的公司知识问题、人工智能辅助的文档处理,以及通过在呼叫和响应中心处理口语实现的半自动化。”

此外,另据悉,为了提升其所开发的人工智能的可靠性,微软还正在推进“信心指标”的研究。

该举措的意义究竟是什么呢?

具体来说,使用者一般会将人工智能用于理解或查询自己的数据集上,现在这类模型的准确度已经非常高。但由于模型以生成的方式输出文本,其准确性还有待进一步探究,因此还需要不断提高模型的可靠性。

西伯表示:“我们围绕它建立了一个包含了赞成和反对的反馈循环,这是一个迭代过程。”

最后,再来说说微软和 OpenAI 的关系。自 2019 年以来,微软一直是 OpenAI 的合作伙伴。前者曾向后者投资过 10 亿美元,并在 2023 年初 ChatGPT 大获成功后,又宣称将在未来多年里开展数十亿美元的投资。

即便在 GPT-4 即将发布之际,ChatGPT 的火爆程度依然未曾消减。上周,微软还宣称将把 ChatGPT 集成到其 Azure 云平台中。

据此预测,GPT-4 在未来同样可能会被集成到微软的产品中,比如必应聊天机器人。

如今,越来越多的企业希望借助人工智能的蓬勃发展,可以更好地优化生产力和简化工作流程。而多模态大型神经网络的发展,既是人工智能发展的一个重要里程碑,也将指引模型构建者们思考,其究竟是想建立能够帮助人们过上更好生活的系统,还是开发一种仅用于创造利润的工具?

因此,从长远来看,在不断探索人工智能强大潜力的同时,也应该在监管方面注入更多力量。

参考资料:

https://www.searchenginejournal.com/gpt-4-is-multimodal/481993/

https://www.heise.de/news/GPT-4-is-coming-next-week-and-it-will-be-multimodal-says-Microsoft-Germany-7540972.html

https://techmonitor.ai/technology/ai-and-automation/gpt-4-openai-microsoft-chatgpt

https://www.bigtechwire.com/2023/03/09/gpt-4-microsoft-germany-announces-release-date-of-fourth-generation-large-language-model/

https://www.livemint.com/

https://venturebeat.com/automation/unlocking-the-power-of-cloud-native-observability-to-transform-the-customer-experience/

https://economictimes.indiatimes.com/news/new-updates/openais-gpt-4-to-bring-multimodal-capabilities-with-ai-generated-videos-and-faster-responses-say-reports/articleshow/98579150.cms

相关推荐: 微软高管称即将发布GPT-4,或实现文本、图像、语音等多模态运行

据悉,近日,微软德国首席技术官安德烈亚斯·布劳恩(Andreas Braun)对媒体表示:“我们即将推出 GPT-4,届时我们将推出多种模态的模型,提供完全不同的可能性,例如视频。” 即将发布的 GPT-4,是 OpenAI 创建的预训练生成模型(Genera…

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)