白交 发自 凹非寺
量子位 | 公众号 QbitAI
更适配中文的语音大模型来了——
来自中国电信人工智能研究院,AI领域Fellow大满贯科学家李学龙带队,发布首个能听懂30多种多方言混说的大模型。
号称最难方言、“魔鬼的语言”的温州话,也不在话下。
还有超自然的语音生成能力。
在2024智算云生态大会上,星辰语音大模型被官宣发布并开源。
要知道,当前语音模型开源开放本来就少,而针对方言更是特定方言特定模型。
开源且支持30种方言,有且只有星辰这么一个。
作为首个完成大语言模型的研发且开源的央企,中国电信现在又在语音模态领域秀起了肌肉。
首个支持30种方言混说语音大模型
那就来说道此次发布的能支持最多方言的语音大模型,核心功能主要体现在识别上——
它打破了单一模型只能识别特定单一方言的困境,可同时识别理解粤语、上海话、四川话、温州话等30多种方言。
实际上,它早已获得国际权威赛事的能力认证,以及多个实际场景中落地。
它在国际语音顶会INTERSPEECH2024离散语音单元建模挑战赛上,星辰语音识别大模型斩获了语音识别赛道冠军。
同时在NIST(美国国家标准与技术研究院)举办的低资源粤语电话Babel语音识别任务上,取得业内最优结果。
并且已经在智能客服、12345热线等场景中落地。
据介绍,星辰语音大模型已在北京、福建、江西、广西等地万号智能客服系统试点应用。它能秒懂方言然后服务用户,日均处理约200万通电话。
智能客服翼声平台也接入了星辰大模型的语音理解和分析能力,实现31省全覆盖,每天处理125万通客服电话。
传统语音识别模型的处理方式,是针对一种方言单独训练一个模型。
这样一方面对运营维护提出了不小的挑战。这就意味着通用语音客服场景下, 需要维护多个方言模型。
另一方面,很难触达更小众的方言,他们数据量本身比较少,标注成本非常高,增强合成挑战大,很难单独训练出比较好的识别效果。
但中国电信不仅发布并开源,性能水平位于业内前列,而且还十分落地,那么星辰语音大模型又是如何炼成的。
我们知道,这背后不仅是大模型训练,还有前期数据准备,后期推理加速等等一整套系统工程,对于企业是技术工程以及资源等综合能力体现。
在官方披露中,我们看到这些信息。
首先在大模型训练上,采用了这两个关键技术:超大规模语音预训练和多方言联合建模。
超大规模语音预训练。
Scaling Law成为共识,那么在大规模参数以及多样性数据集情下,很可能就会出现模型预训练坍缩问题,即输出生成质量下降,变得重复、无意义以及缺乏多样性。
为了解决这一问题,他们提出了“蒸馏+膨胀”联合训练算法,最终实现80层模型稳定训练。据介绍,这一算法是业内首创。
多方言联合建模。
基于离散语音表征,语音识别大模型通过“从语音到token再到文本”的建模新范式,将推理时语音传输比特率降低数十倍。
另外,联合建模使得模型学习到了各个方言之间的共性,显著降低了对新方言标注数据的需求。实验显示,有标注数据需求量降低为1%。
这是星辰语音大模型能率先实现单一模型识别30种方言混说的关键。
这直接解决了部分方言语音难获得、标注成本高昂的难题。传统那种只针对单一方言的识别方言,可能需要十万小时的标注数据量才能实现比较好的效果。但这显然并不适合那些小众方言的识别场景。
而在数据准备上,中国电信AI研究院透露,他们已构建超30种、超30万小时的高质量方言数据库。
在算力基础设施上面,在官宣首个大模型开源时就曾披露过,中国电信作为国内最早进入云计算领域的运营商,积累了大量算力建设和算力调度的核心技术。
有数据算力资源、有技术能力和场景积累,再加上大佬把持,中国电信语音大模型由此得以炼成。
但是大模型多模态,视觉模型正热门的当下,中国电信为何选择方言这个看似“冷门”的赛道发力语音大模型呢?
为什么专为方言推出语音大模型?
在公开采访中,中国电信对这一问题做出了回应。
首先,技术价值驱动。
宏观上看,我国是当前世界上语言资源更丰富的国家之一,拥有五大语系130多种语言。但是当下很多方言正面临着濒危或消亡,有数据统计,有25种使用人口不足千人,有的语言只剩下十几个人甚至几个人会说,这对方言的保护、文化的传承提出更大挑战。
在具体到我们日常的沟通。有这样一组数据值得关注。当前全国仍有约20%的人口尚未普及普通话,沟通效率比较低。这当中甚至还更多聚集在老年人群体,他们还面临着无法触及信息化服务困境。
大模型的技术范式,面对这两大刚需场景,提供了天然的解决出口。
大模型本身就是数据驱动,它能够更高效、系统地对方言进行整理归纳,是方言保护和传承的天然容器,以及极强的泛化能力。一个通用语音模型能同时实现多个任务,比如多语言/多方言语音识别、跨语言语音翻译、语种/情绪识别等,能够轻松覆盖多语种沟通交流。
为了进一步让技术普惠的加速,电信选择了开源的方式。
中国电信人工智能研究院语音大模型负责人李杰进一步解释了这方面的原因。
我们已将语音大模型全面开源,希望联合开发者共建覆盖更多方言的大模型,打破沟通壁垒,让老少边穷地区人们、老人等每个人都能享受到AI时代便利,也呼吁更多专家、方言爱好者及大众用户一起加入守护方言计划,共同传承语言文化,推动AI普惠。
其次,业务需求导向。
作为头部运营商,中国电信最核心的业务场景就是智能客服。“每天都能接到几百万通电话,其中很大比例是方言或者有方言口音的普通话。”真正实践中他们发现,人们都还是更喜欢用方言来进行沟通。
因此语音大模型一面世,就率先落地到这一场景中去创造价值,逐步覆盖更多更广的地区之中。
除此之外,它还在对外输出能力以及更多场景赋能。
比如,大家所熟知的12345市场热线这个公共服务平台。据介绍,语音大模型已经赋能多地市的12345平台让每个客服人员听懂30种方言,更快地理解更多市民需求。
前段时间,语音大模型还应用到了防范校园霸凌中,在某小学防霸凌项目中,它采用亿级参数进行推理,可在嘈杂环境下精准识别关键词进行预报警。
还有它赋能的数字人,已经在多个展会亮相工作,曾在中国国际大数据产业博览会亮相,与康辉同台主持。
最后,战略部署。此举正是中国电信「通用智能」战略部署一环。
而他们一早也提出了自己大模型领域布局:1+1+1+M+N:
1个智算云底座、1个通用大模型底座、1个数据底座、M个内部大模型、N个行业大模型。
最早在2022年12月就已启动了语义大模型的研发,去年数字科技生态大会上,他们发布了千亿参数星辰语义大模型,并相继开源7B、12B、52B大模型。
如今,随着包括语音大模型在内的发布,中国电信其实已经形成语义、语音、视觉以及多模态一整个全模态完备的大模型布局。
而他们最终的目标也很明确:
成为领先的通用人工智能服务提供商。
中国电信在大模型的布局
随着端到端多模态大模型GPT-4o的亮相,通用多模态更成为一种共识趋势。而GPT-5也被爆料说将精通更多小语种和方言……
这实际与中国电信本身技术战略不谋而合。
如果讨论国产大模型玩家,中国电信一定是最为特殊的那个——
不是创业公司,也并非互联网大厂,却最早入局,而且进展频频剑指通用,在业内影响不小。
跟创业公司不同的是,电信有着天然的需求驱动和应用场景。有锤子也有钉子。
只是在纯自研星辰大模型亮相之前,大众对于电信的技术感知并非那么强烈。
实际上,他们背后搭建了一支700人的AI研发团队,70%以上来自头部互联网和AI明星企业。再加上,AI领域Fellow大满贯科学家李学龙加盟,出任电信CTO,并组建中国电信人工智能研究院(TeleAI)。
基于这样的人才储备,他们很快同大模型头部选手们站在同一阵营,并且落地速度贼快。
而同互联网企业相比,作为国产运营商的电信,其实优势则更为明显了。
一方面,运营商有丰富的网络和算力资源,相对来说训练、推理成本更低。尤其在大模型的建设方面,更容易发挥规模的优势。
目前,他们已打造基础模型+行业模型+应用模型的布局,除了自研本身,还采取生态合作的方式,联合头部生态构建了涵盖教育、政务、应急等20多个行业大模型,覆盖全行业500多个应用场景。
另一方面,有庞大的客户群体作为落地基底,以及丰富的2C、2H、2B的信息服务经验,能够更快地推动大模型在各个领域的落地,形成新的经济增长点。
这当中数据累积也构成了他们的核心壁垒。目前,他们已经完成了超500TB文本数据、12亿张图文数据、PB级视频数据的积累。
这些优势使运营商有动力在人工智能领域加大投入,驱动技术进步。
也正因这样的技术和经验底气,他们才能早早确立目标并且有着清晰的时间线规划。
就像最新语音大模型,他们就计划实现首个支持国内333个地市方言和主要少数民族语言(维藏等)的语音大模型。
关于语音大模型的进展,值得期待。
而对于AI的落地,中国电信值得关注。
开源链接:
Huggingface模型:https://huggingface.co/Tele-AI/TeleSpeech-ASR1.0
github代码:https://github.com/Tele-AI/TeleSpeech-ASR
gitee代码:https://gitee.com/Tele-AI/TeleSpeech-ASR