大模型下探音视频AI市场，战争才刚刚开始

大模型下探音视频AI市场，战争才刚刚开始 | ToB产业观察

图片来源：视觉中国

大模型面向产业落地的难点是什么？

大模型下探音视频AI市场，战争才刚刚开始 | ToB产业观察

1.当下，基于生成式的人工智能技术（AIGC），仍然需要海量数据进行训练才能得到一个回复质量较高的模型算法，初期训练成本非常之高。这对于倾向自研基础大模型的企业是必须要过的门槛。

2.对于给出算法更加精准、训练成本更低、对于用户调取更方便的模型，这一方面的提升空间较为明晰。在媒体、游戏、营销等行业已经看到比较多典型的内容生成场景，但AIGC技术并不能适用于所有场景，且在商业层面的实际回报率尚未明朗。

3.从市场需求的共性来看，企业对AI技术更关心，关心怎么跟业务融合，但同时也会有些担忧或紧张，新技术会不会对业务带来冲击。与此同时，各国对人工智能和数据获取监管的法律条文，以及对“类ChatGPT”的支持力度，也在反映这种观望态度。

过去半年，整个科技圈有关AIGC创新的新闻铺天盖地，但一顿操作猛如虎之后，还有更多仍在“来的路上”。

6月1日，阿里云宣布通义大模型进展，聚焦音视频AI的“通义听悟”正式亮相，成为国内首个开放公测的大模型应用产品。

通义听悟其前身是早在2021年研发投入市场的“听悟”产品，此次除了集成阿里通义千问大模型的理解与摘要能力外，还融合了阿里最先进的语音语义、多模态算法等技术。公测期间，听悟用户可通过每日登陆等多种任务领取免费转写时长，阿里云官方多个平台也会放大量20小时的转写口令码。除此之外，听悟企业版还在与钉钉“钉闪记”、夸克APP、阿里云盘等进行能力进行集成。

此举对于国内的AI语音技术服务商以及“类ChatGPT”应用企业，并不是个好消息。

从听悟到通义听悟

结合当前的官方定义来看，通义听悟具备“听”与“悟”能力，即“听力好”，能高准确度生成会议记录、区分不同发言人，“悟性高”，可形成摘要、总结全文及每个发言人观点、整理关注重点和待办事项。

这其实也明确了外界对AI音视频技术产品的一个重要期待：要让AI理解人类，并且以人类可理解的方式表达出来。AI理解人类，意味着不只要听到表面语义，甚至还要理解人的情绪和意图；AI表达，则意味着在文本生成、内容摘要、风格及情绪表达上要有所突破。同时结合多模态技术，不只是文字、音频，还有图像、视频等方式传递给AI理解。

大模型下探音视频AI市场，战争才刚刚开始 | ToB产业观察

这个过程，在没有大模型技术应用前，就已经存在诸多细节性挑战。但在阿里云CTO周靖人看来，有了通义大模型的加持，阿里将多年积累的语音技术，以及多模态的能力有机结合起来，最终形成今天的通义听悟。

“‘知其然不知所以然’是产品没有大模型的局限性，过去的听悟只能做到将语音文字转录出来，但背后的整理、理解、信息收取，是依靠人来完成的。之前也曾用过小模型，但结果并不好。”周靖人在会后的交流活动中指出。

以语音识别TTS为例，听悟内置了语音识别模型Paraformer，它首次在工业级应用层面解决了端到端识别效果与效率兼顾的难题。配合GPU推理，不同版本的Paraformer可将推理效率提升5～10倍，同时，Paraformer使用了6倍下采样的低帧率建模方案，可将计算量降低近6倍，支持大模型的高效推理。

说话人识别模型CAM++，相较于如ECAPA-TDNN和ResNet模型，在准确识别和高效计算的同时，还实现了整体优解。在行业主流的中英文测试集VoxCeleb和CN-Celeb上均刷新了最优准确率，并且在计算效率和推理速度上有着明显优势。

而此次听悟上线测试的通义千问大模型的信息摘要能力，为保证抽取出的摘要信息的事实准确，大幅度减少幻觉，团队还融合了在推理、对齐和对话问答等方面的研究成果。如在推理能力方面，2022年团队提出了基于大语言模型的知识探测与推理利用的框架 Proton。

对手会是讯飞吗？

业内普遍一个声音是，“很多产品因为大模型的到来会重新再做一遍”，接入大模型能力，或将改变的是产品的业务逻辑、交互模式，甚至是收费模式。

从通义听悟当前的产品界面上看，针对的仍然是比较高频的场景，往往跟对话或交流相关，如上述提及的总结、翻译、内容摘取，其本质上是对内容语义的理解输出。据官方描述，其定位为一款工作学习AI助手，瞄准具有高知识附加值的音视频内容场景，如开会、上课、访谈、培训、面试、直播、看视频、听播客等，能通过大模型等最新AI技术快速提炼和沉淀知识。

通义听悟的技术负责人鄢志杰一直都在从事智能语音交互相关工作，他解释道，“目前展示的视频转文字，仍然是将视频里的音频进行文字转换，尚未展示出视频直接转文字的理解过程。未来会进行多模态的理解，不仅要有音频转文字，还要辅助以视频和视觉的模态对内容进行更好的理解。”

下一步，通义听悟会被各种各样的业务系统集成，集成到智能化服务中，开发者可根据实际场景，最终打造基于业务场景的MaaS服务，“通义听悟一定会推出企业版，为企业场景所定制，每个企业也都会有不同的需求，也有数据安全、数据隐私等方面的要求。”周靖人补充道。

那么，通义听悟的对手会是讯飞吗？

事实上，音视频是人机交互的重要入口，市面上成熟的AI音视频产品并不在少数，除了讯飞、搜狗、网易有道等具备软硬件能力的服务商外，飞书妙记、腾讯会议等互联网公司孵化的企业办公生产力工具，也同样具备相似的能力。可能的区别在于，背后的AI技术逻辑，是否会因大模型的到来而彻底改变。

科大讯飞于上月发布星火大模型，其中软件产品讯飞听见会写已经搭载大模型开放使用，在收费模式上已经给市场参考标准——根据单次AI能力的使用（单次字数不超过8000字）按月/季/年会员收费。

互联网公司在这方面的积累也从未缺席，在不断丰富AI技术体系的同时，也在迅速推进大模型+的创新。例如从早期的iDST实验室到达摩院，阿里2019年开始投入大模型，2021年训练实现10万亿参数的多模态大模型M6，2022年发布通义大模型，到如今的通义千问、通义听悟已经在逐步产业化融合。

《中国人工智能大模型地图研究报告》指出，据不完全统计，中国10亿级参数规模以上大模型已发布了79个，特别是在自然语言理解、机器视觉、多模态等方面，出现了多个在行业有影响力的大模型。上述提及的网易有道则基于教育场景推出了“子曰”大模型，出门问问的“序列猴子”则面向多模态生成能力的大语言模型……

可见，能容纳后来者的赛道，依然存在尚未挖掘的价值空间，更何况大模型将带来新的变量。

（本文首发钛媒体APP，作者 | 杨丽）

更多精彩内容，关注钛媒体微信号（ID：taimeiti），或者下载钛媒体App

2023 年 6 月
一	二	三	四	五	六	日
	1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง

tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.

ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.

ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.

ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.

ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!

ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.

大模型下探音视频AI市场，战争才刚刚开始 | ToB产业观察

从听悟到通义听悟

对手会是讯飞吗？

test

test

文心AIGC

test

test