声网刘斌:“Her”真正落地实现离不开RTE能力的支撑|MEET 2025

1,059次阅读
没有评论

声网刘斌:“Her”真正落地实现离不开RTE能力的支撑|MEET 2025

Agora也是OpenAI Realtime API的合作伙伴

大模型正在改变实时互动技术

声网作为全球音视频技术龙头,2020年在纳斯达克上市,目前是全球最大的实时互动云服务商,平台单月音视频使用时长达700亿分钟。

同时,声网兄弟公司Agora也是OpenAI Realtime API的合作伙伴,在国内声网也与MiniMax正在打磨国内首个Realtime API。

在MEET 2025智能未来大会大会现场,声网首席运营官刘斌分享了一个看似离大模型有点距离,实则却不可或缺的环节:

RTE(Real Time Engagement)在AI Agent时代的全新价值。

声网刘斌:“Her”真正落地实现离不开RTE能力的支撑|MEET 2025

为了完整体现刘斌的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。

MEET 2025智能未来大会是由量子位主办的行业峰会,20余位产业代表与会讨论。线下参会观众1000+,线上直播观众320万+,获得了主流媒体的广泛关注与报道。

核心观点

  • 多模态对话体验的两个关键:延迟是否低于1.7秒,能否打断
  • 多模态对话AI Agent应用产品化落地的关键:端到端、全球任意地点、弱网环境、各种终端下的低时延
  • 不管是语音,还是视频,只要是多模态有交互的AI Agent应用,离不开RTE能力的支持

演讲全文

今天非常高兴有这样机会来到现场跟分享,声网作为RTE领域的企业,和AI领域的大模型与应用厂商,和当下的大模型关系是什么,RTE演进如何助力AI Agent应用落地。

第一,声网到底是谁。

声网于2020年在纳斯达克上市,专注于提供实时互动云服务。经过多年的发展,该公司在该行业取得了一定的进步。

我们公司的口号简洁明了,即让实时互动像空气和水一样,无处不在

这一理念旨在实现未来无论身处何地,都能获得如同面对面般的互动体验。经过多年的努力,我们在市场占有率方面位居第一,并拥有大量注册开发者应用。

单月音视频分钟数约为700亿,这意味着每天在我们平台上的分钟数约为20多亿。在这种情况下,全球超过60%的泛娱乐应用选择声网作为其合作伙伴。我们涉及的领域包括泛娱乐、教育物联网等,均拥有相应的合作伙伴。

声网刘斌:“Her”真正落地实现离不开RTE能力的支撑|MEET 2025

第二,我们做的事到底和AI Agent有什么关系,如何去助力它。

首先,值得关注的是,OpenAI于10月1日在官方网站发布Realtime API时,曾在合作伙伴中提及Agora,即我们声网的兄弟公司。

其次,在10月份的RTE大会上,我们宣布与MiniMax正在打磨国内第一个Realtime APl。

声网刘斌:“Her”真正落地实现离不开RTE能力的支撑|MEET 2025

第三,AI Agent时代到底怎么样做才能做的更好。

我们可以观察到,在真正多模态模型推出或对话时,相较于原先的纯文本交互,已经发生了变化。

原先的交互本质上是异步的,即我可以发送信息,说完后等待处理并返回结果。然而,在真正多模态交互中,要求实时性和双工性,即我说他听,他听完后我再听。

在这个过程中,有几个关键因素会影响效果。

首先,大家较为熟悉的语气、情感、情绪和口音等因素在模型中得到了大量处理。

其次,延迟也是一个非常重要的因素。相信大家都有相关的感受。

从实际测量数据来看,真正达到实用效果的延迟一般在1.7秒左右。如果低于这个值,人们会觉得与Agent交流很自然;而如果延迟达到2秒多或3秒,人们就会感觉到有些卡顿,反应稍显迟缓。这是一个非常重要的关键点。

另一个关键点是,能否实现打断功能以及如何更好地进行主动交互。

声网刘斌:“Her”真正落地实现离不开RTE能力的支撑|MEET 2025

要实现这些功能,除了模型能力外,还需考虑应用的落地方式。是在实验室的PC上进行演示,还是将其应用于各种手机终端、物联网终端以及其他设备上?

当有此需求时,在产品化落地的过程中会发现,除了之前提到的低时延等能力外,还需要在端到端都能实现。此外,还需在不同地点、不同网络环境下以及各种终端设备上都能得到支持,这并非易事。

关于这张图,尽管大家可能不太关注,但我们当时非常重视。这是5月份OpenAI GPT-4o发布时的情况,大家可以看那根网线,这是要保证网络的稳定性。

声网刘斌:“Her”真正落地实现离不开RTE能力的支撑|MEET 2025

在4o发布之后,大家都在等待API的推出,原本预期一周或两周内会推出,但实际上并非如此,直至10月份才发布。原因在于,一开始大家认为这件事很简单,只需对原有的RTP Server进行修改,将文本传输改为语音传输即可。

然而,实际情况并非如此简单。我们与他们合作,直至10月份才正式推出。正是我们在其中发挥作用,使其真正落地实现

在此,我向大家展示声网多年来的工作成果。

首先,我们拥有一张遍布全球的SD-RTN网络,确保在这张网络上音视频传输都能在标准的400毫秒内端到端到达,这是网络支撑。其次,我们多年的积累使我们能够在30多个平台的框架和30000多终端机型上提供SDK支持,涵盖各种操作系统。您只需很快地建立这个能力。包括物联网的各种设备终端,都有相应的SDK。

声网刘斌:“Her”真正落地实现离不开RTE能力的支撑|MEET 2025

此外,在实际应用中,如我们在这个会场,如果我要与AI对话,网络情况和环境噪声并非固定不变。如何在极端弱网下保证效果,这也是我们多年技术积累的结果。

声网刘斌:“Her”真正落地实现离不开RTE能力的支撑|MEET 2025

正是我们在这一领域的深厚积累,使得我们能够构建一个具有实际应用价值的Voice对话Agent。只有将这两者紧密结合,才能实现这一目标。这也解释了为什么在发布Realtime API时,我们需要寻找这样的合作伙伴共同推进。

我们还发现,现有的RTC技术栈和基础设施存在大量改进空间。只有通过改进,大型模型才有可能在各种场景、形态和模型下大规模参与到人类的语言对话中,其参与来源也将从云端扩展到终端,再到更低延迟的边缘。基于这些能力的改进和普及,未来RTE必将成为生成式AI时代AI基础设施(AI Infra)的关键组成部分。

如图右侧红色部分所示,Realtime API通常由大型模型厂商发布。然而,在左侧这一圈,包括中间的网络和声网的Linux Server SDK,以及前端的SDK,如果没有这样的基础,我们将很难实现这一整套效果。这正是我之前所解释的原因。如果中间的这些环节未能实现,那么效果将无法显现。

声网刘斌:“Her”真正落地实现离不开RTE能力的支撑|MEET 2025

在此,我们将从当前视角出发,探讨未来的行动方向以及如何进一步提升效果。近期,我们一直在深入研究和投入资源,以优化人与人之间的对话体验。然而,在人与模型之间的对话中,体验的提升需要充分考虑模型的特性。

例如,我们从传统的QoS、QoE发展到如今的AI QoE,乃至多模态AI QoE,这其中涵盖了VAD技术、噪音消除能力以及相关网络优化等方面。这些新的方法和方式使得我们与模型的对话更加贴近实际情况。以一个简单的例子来说明,人与人交谈时不会夹杂其他信息,但人与模型对话时则可能不同,语音传输过程中可能还包含其他信息。因此,在弱网环境和应用场景中如何实现良好适配,便显得尤为重要。

我们曾在RTE大会上展示过一个实例,当时的会场规模较大,人数众多且环境嘈杂,我们在现场使用了一个5G设备进行演示。

我们想做到的是从60分提升到90分,这不仅涉及模型难度的提高,还包括周边工程配套的完善,以便将产品从演示阶段发展为更具实用性的应用。

关于声网的产品体系,我们正不断加强其功能,如Linux SDK、AI VAD能力以及AI Agent Service的补充与优化。通过声网RTE+AI能力全景图,我们可以看到我们的整体思路,包括从基础设施到Agent,再到场景的演进,旨在成为生成式AI时代的AI基础设施,这也是我们的愿景。

最后,我想强调一点:

任何涉及大模型多模态实时交互的应用,无论是语音还是视频,只要存在多模态交互,这类Agent应用的落地都离不开RTC技术的支持。

在这种情况下,如果大家有这样的需求,请来找声网,我们一定给大家更好的体验。

谢谢大家,今天就到这里。

版权所有,未经授权不得以任何形式转载及使用,违者必究。

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 12 月
 1
2345678
9101112131415
16171819202122
23242526272829
3031  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛 一水 2025-12-17 ...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...