智能交互终于步入真·人机交互时代了,这很讯飞
我看到了智能交互新范式
白交 衡宇 发自 凹非寺
量子位 | 公众号 QbitAI
苹果放鸽子的更新,国产AI率先实现了。
背上一个看起来平平无奇、体积也没什么存在感的包,宇树机器人就声情并茂地开口说话。
社交i人戴上AI眼镜,就可以轻松跟外国人social,看似不经意就加上微信好友;戴着它看展的话,看到不懂的展品还可以不懂装懂一下(bushi。
你对智能硬件的想象,是不是还停留在“能听懂你说话”的阶段?这种“你说一句、它答一句”的交互,本质上还是命令式的、静态的。场景一变化,语气一模糊,体验就崩了。
但现在,这些都开始变了。万物皆可交互,万物皆可互联开始具象化。
你甚至可以让巴斯光年、变形金刚在你面前唱歌跳舞。

手里的一支签字笔、一块贴牌,也可以化身会议神器。

在科大讯飞最新发布会上,我看到了智能硬件的新范式:
设备不再是限制,产品与服务正在被AI革新,交互重构整个硬件产业生态。
AIUI,一站式搞定人机交互开发
正如此次发布会所展现,一个最大的感知就是现在智能硬件从基础交互迈向深度智能协作,从而在应用场景里深度赋能。
从技术角度来说,人机交互正在变成一个复杂的系统性工程,而不再是语音识别、模型系统和语音合成的简单组合。
这背后源于AI普及之后用户越来越高的期待。讯飞这边给了几个发现:
- 单次对话轮数不断提升,用户对话自由度越来越高;
- 在不同场景下,由大模型引领日交互频次实现飞跃,尤其是儿童、家庭、机器人场景交互数据飙升。

传统交互可能局限在“你说一句、它答一句”的固定回答上面;但现在大模型升级,万物皆可成为载体,智能交互所承载起的需求远比以往复杂得多,也丰富得多。
可以说,它集成了工具属性、娱乐属性以及情感表达于一体,相当于它不仅有全知全能的智商,还有懂你知你的情商,这就有点像“我要你做什么,但你不能只做什么”。
当然,这就对技术侧提出了很高的挑战,包括但不限于自然多轮对话的理解处理、情绪识别与共鸣、长程记忆、快速响应等等。
那么深耕了十年的讯飞如何应对呢?语音,是他们解决的抓手,也是此次AIUI升级的重点。
AIUI——讯飞的人机交互平台,早在2015年就已经上线,目前已累计服务超10亿设备,在车载、AI硬件、机器人等领域都有落地。

此次升级,正如在会场上所看到的,每一台AI设备都能拟人自然对话,每个场景都能智能响应——
背后是技术突破、场景深耕到生态开放都全面Level-Up。
技术突破方面,讯飞认为,全双工交互模式及情绪的感知和表达是拟人交互的基础要求。
全双工模式下“有所闻,有所不闻”。AIUI不仅能够有效识别噪声和无关人声,更重要的是,它能够在用户有迟疑、等待、附和时主动延长拾音。

以前语音助手可能你还没说完它就抢答,或者你说完它反应慢半拍。现在它能更聪明地判断你是在思考停顿、在附和、还是在犹豫,不会乱打断你,也不会让你干等着,对话节奏更舒服了。
而且它不光听懂你说什么词,还能从你说话的语调、声音里感觉出你是高兴、沮丧还是烦躁。
基于千万高质量高情商对话数据训练,背后模型——星火交互大模型“共情能力”升级,成为能回应你喜怒哀乐的智能伙伴。

基础要求满足之后,但不懂你怎么行?!此次发布另一个值得说道的就是类人记忆系统。
基于长短时记忆融合架构,模拟人脑记忆方式,对对话记录进行多层精准提取(上下文对话、用户画像、生活事件),慢慢形成专属的聊天方式和知识库,像是在陪伴你共同成长。

此外在交互响应上面也卷了一下,音频端到端响应时间做到了1.6s,在业内量产语音交互系统中处于领先水平。
特别针对需求旺盛的儿童场景,讯飞首发儿童专属交互方案。前面提到,大模型加持儿童场景的交互频次飙升,733%的那种。
小孩说话常常天马行空、表达不清,比如“我要那个会亮的星星”。科大讯飞专门训练了童言识别模型和童语理解模型,提升对话场景下的识别率和正确理解率。

在内容生态、交互模式、心智健康等方面,讯飞都做了相应的优化。
例如,孩子说 “我想看恐龙”,设备不仅播放科普视频,还会引导孩子用英语描述恐龙特征。这就是结合AI早教场景化学习提供趣味互动 。
除此之外,其他硬件场景下,在AIUI加持下也正在实现从功能实现到体验重构。
比如智能眼镜。即便是在发布会这样的嘈杂环境中,基于三麦阵列降噪技术,设备能精准区分佩戴者与他人声音,实现“一对一私密对话”。
当然这些场景的赋能还只是开始,要实现产业的赋能还得需要生态。
对于从来不缺开发者生态的讯飞来说,自然同样要发挥好原有的优势。AIUI将联合30万+开发者共建AI硬件解决方案,深度打磨软硬结合的交互效果。
董事长刘庆峰曾说过,语音将成为万物互联时代的主要交互方式。
如果说AIUI给硬件提供了丰富的感知和表达能力,那么还需要“大脑”赋予它思考的能力,从而实现从感知-理解到行动的闭环。
科大讯飞给出的答案是机器人超脑平台。
背上就说话!智能语音背包让“沉默”机器人开口
其实早在2022年,科大讯飞就发布了讯飞机器人超脑平台;随着大模型技术爆发,讯飞迅速将星火大模型与超脑平台深度融合。
现在的机器人超脑平台以科大讯飞超脑2030技术底座,基于讯飞星火独有的两层1+N认知大模型体系构建交互大脑,大幅提升多轮对话、语义理解、知识应用、共情闲聊和行业知识构建效果。
超脑平台要求机器人能听会说、能理解会行动,而多模态交互正是实现“能听会说”的核心技术模块。

一方面,平台在端侧提供了视听融合的感知交互解决方案。
通过整合视听融合感知(语音+唇形+人脸追踪)、多模态降噪、多人语音分离等技术,来构建机器人的感官系统。
如多模态降噪方面,讯飞机器人超脑平台采用麦克风阵列窄波束算法,将限定拾音角度从传统算法的60°降低到30°,明显提升机器人设备麦克风阵列两侧噪声抑制的效果。
即便在嘈杂环境下,机器人的语音识别率也从83%提升至96%。
另一方面,平台在云端构建以大模型为核心的机器人大脑,同时还在工程化上做了诸多优化。
云端大模型简化输出内容,避免传统机器人应答冗长问题,音频端到端响应时间1.6s。实现超拟人TTS合成,还把TTS的首响时间控制在200毫秒以内。

目前,讯飞机器人超脑平台的产品已经在多款机器人产品上集成和应用。
比如在永达4S店迎宾的智元远征A2人形机器人,就集成了平台的多模态交互,不仅实现对顾客的主动感知、主动迎宾,还会结合专业汽车知识库提供车型参数问询、促销活动讲解。
此外,这样强大的多模态语音交互,还被北京“天工”、上海“朱雀”、浙江“领航者2号”等多款人形机器人广泛使用。
值得一提的是,为了解决机器人行业面临的 “碎片化需求”与“规模化落地”之间的矛盾,讯飞机器人超脑平台采用模块化设计。
具体而言,平台打造了软硬件一体的套件方案,快速提升交付能力。

发布会上,讯飞机器人超脑平台还带来了一个新产品:智能语音背包。
它的存在是为了破解存量机器人缺乏语音交互能力的痛点。
所有机器人无需硬件重构,把智能语音背包在背上一背就能赋予机器人开口对话的能力,即插即用。

合作伙伴宇树G1背着它的“小背包”就上台了:

背上智能语音背包,G1秒变段子手。
不仅在现场和科大讯飞产品经理幽默互动,还能为自己刚在深圳学的太极拳来一套程序员喜闻乐见的动作解释:
这招叫Wifi满格!接着是代码运行顺畅——最后系统永不宕机!
(猜猜下图这招叫啥?)

目前,就有超500家机器人客户选择了讯飞机器人超脑平台,种类包括人形机器人、四足机器人、轮式机器人等,推动机器人从实验室走向商场、医院、4S店等真实场景。

讯飞坚信,随着机器人服务现实世界的能力进化,在未来,遥控器、屏幕等人机交互的中间介质都会被逐步替代,人机直接互动才是服务过程中的刚需。
AI交互不是终点
围绕智能交互这一点,发布会现场还揭晓了包含开发者生态、智能硬件(如AI眼镜)、数字人、大模型Agent在内的不少干货,不时引得观众掌声雷动。
数字人一直是科大讯飞的拿手好戏,此次发布会上依旧格外出彩。
会上提到,对比前一年,2024年全年科大讯飞的数字人制作量提升了16%,用户和数字人每天的交互次数增长了6.5倍。
据统计,AI虚拟人交互平台已成功构建超10万数字分身,广泛应用于媒体、教育、政企、文旅等场景,在金融、媒体、教育等领域市场占有率都达到了第一。
现场还展示了科大讯飞面向个人用户提供的轻量化定制方案——现在,一句话和一张照片就能快速构建一个人的数字人分身。

新产品移动数字人小雨也在发布会现场亮相。
它搭载导航和路线规划功能,可在展厅、博物馆等场景自由移动,提供导览服务。

一个有意思的事情是,科大讯飞注意到在大模型时代来临前,人机交互最高频的使用场景是电视和车载;大模型时代来临后,儿童领域对话需求非常强烈,交互速度增长了7倍以上,成为交互最高频的场景。
一个有意思的事情是,发布会场内,科大讯飞在儿童这一高频场景做了体验升维:
发布会现场外,5名父亲利用科大讯飞儿童专属的功耗玩具开发套件,在60分钟时间内,挑战开发板的“童芯大脑”。

“技术-场景-生态”闭环在这里交织,这其实也是科大讯飞一直以来践行的技术创新之道。
另外,这次挑战也是科大讯飞今年开发者大赛的一部分——发布会现场,讯飞iFYTEK AI开发者大赛同场起航。
本届赛事覆36道应用赛与72道算法赛,特设智能座舱交互评测、多模态虚拟人对话等前沿赛道,以开放的生态与前沿的赛题,推动人工智能新生代的成长。
从2018年起,科大讯飞每年持续发起并举办开发者大赛,如今这项赛事已经成为一个全球性的人工智能竞赛平台,来自全球各地的人工智能产业的专业人才积极参与,共同推动人工智能前沿科学的研究和创新成果的实际转化。
15年前,科大讯飞发布行业首个语音云,至此拉开了语音交互的帷幕。
5年后的2015年,科大讯飞又发布了首个人机交互界面AIUI,让智能硬件进入了语音交互时代。
2021年有了虚拟数字人,2022年有了机器人超脑平台,2023年有了讯飞星火大模型……2010年至今,科大讯飞的交互技术不断突破。

而刚刚结束的这场发布会虽然是一场面向智能交互产品的发布会,但它讲述的故事,远不止功能更强和设备更聪明这么简单。
最直观的感受是它让外界更清晰地看到,在科大讯飞这里,智能交互正实现从单向指令到深度协同的转变:
它展示出的远非科大讯飞某一项功能/工具的单一产品升级,而是以AI交互为中枢、贯穿硬件研发到场景落地的全链技术方案。
人机关系的重塑不再仅仅是“命令-执行”,而是逐步向共同完成目标过渡。交互体验提升不再是某个模块的升级,而是系统智能协作的开始。
你也可以理解为产品与服务在向更便捷、更高效、更智慧的方向演进。
这种变化不仅服务于讯飞自有产品,实现产品体验的跃升,更以平台方式赋能合作伙伴,直击广电、家庭、医疗、办公等诸多具体场景的核心痛点,让产业升级落到实处。
总之,让技术真正转化为解决问题的生产力。
人机协作的下一站,不再只是“能沟通”,而是“能共事”,甚至“替你想”。
一个更聪明、更协作、更具生命力的智能世界,正从科大讯飞这场发布会开始,加速走进现实。
