同伴客数据与至顶科技共同编写了《AIGC人工智能生产内容行业研究报告》。AIGC被资本给予厚望,AIGC行业迎来的新的发展契机,但在政策、商业和法律等层面,仍然存在很大风险。
前言:
2022年8月,美国科罗拉多州举办的新兴数字艺术家竞赛中,一位没有绘画基础的参赛者提交AIGC绘画作品《太空歌剧院》,获得了比赛“数字艺术/数字修饰照片”类别一等奖,引起业内关于“AI是否会取代艺术家”的一场争论。
这也使得从2022年下半年开始,“AIGC”接棒“元宇宙”成为全球关注的焦点和热议话题,各行各业都在积极探寻相关领域在AIGC助力下的崭新发展方向。国内外大企业纷纷在AIGC领域进行布局,同时业内也涌现了一大批新兴的科技型创业公司,在资本的助力下,AIGC行业迎来的新的发展契机。
AIGC已经引起了各行业的广泛关注,如何将AIGC与各行业深度融合,进行业务模式的创新,以及如何避免其中可能存在的政策、商业和法律风险,成为了业界人士共同关心的议题。
本研究报告参考了AIGC业内众多机构的研究成果,以及AIGC资深从业者的观点和实践经验。从AIGC的行业发展概况出发,系统梳理了AIGC与各行业业务结合的众多场景和业务模式,同时整理了AIGC行业尚待解决的一些问题。希望本研究报告能为读者打开接触AIGC实践的窗口,助力新经济领域的实践探索。
第一章:AIGC概念与国内外发展概况
1、AIGC概念与发展历程
AIGC,全称为:“AI Generated Content”。即人工智能生产的内容,是继专业生产内容(PGC)、用户生产内容(UGC) 之后诞生的,利用AI技术自动生成内容的新型生产方式。
在AIGC场景下,人工智能可灵活运用于写作、编曲、绘画和视频制作等创意领域。初步估计,到2025年,人工智能生成数据占比将达到10%。根据《Generative AI:A Creative New World》的分析,AIGC有潜力产生数万亿美元的经济价值。
AIGC尚处于早期阶段,其精准概念范围和商业落地路径尚无行业共识,其发展可以大致分为以下三个阶段:
早期萌芽阶段:20世纪50年代到90年代中期,受限于科技水平,AIGC仅限于小范围实验。
沉积积累阶段:20世纪90年代中期到21世纪10年代中期,AIGC从实验向实用转变,受限于算法,无法直接进行内容生成。
快速发展阶段:21世纪10年代中期至今,深度学习算法不断迭代,AI生成内容种类多样丰富且效果逼真。尤其是近几年来,AIGC的发展迅速,从原来作为边缘侧服务于企业、机构的角色,变为了现在C端零基础用户都可以使用的创作工具。开发侧重点上,AIGC也从原先用于翻译、语音合成以及重复性工作,转变为了更注重应用层面,用户能够便捷操作的方向。
AIGC在近年来的大发展主要源于三个契机:
1)更大的模型
数据表明,至少在文本生成领域,更大的模型有更好的效果。在过去5年中,随着算力和算法的提升,模型参数量提升了3个数量级。2017年第一版生成模型只有1亿参数,而最新的模型有超过1000亿的参数。
2)高质量图像生成引起的广泛传播
文本生成模型gpt3达到百万用户用了2年半,同样的里程碑,代码生成模型copilot用了半年,图像生成模型dalle用了2.5个月,另一个图像生成模型Stable Diffusion用了不到一个月。
3)更多的数据形态
在2021年之前,AIGC生成的还主要是文字,而新一代的模型可以处理任何内容格式,文字、语音、代码、图像、视频、3D模型、游戏机的按键、机器人的动作等等。在不断地把不同类型的数据用同一种思路做抽象,且都取得了很好的效果之后,我们隐约发现了一条可能通往通用人工智能(AGI)的路。
2022年AIGC发展速度惊人,年初还处于技艺生疏阶段,几个月之后就达到专业级别,足以以假乱真,这让花费毕生所学进行创作的从业人员倍感焦虑和紧张。同时,AIGC的迭代速度呈现指数级爆发,这其中深度学习模型不断完善、开源模式的推动、大模型探索商业化的可能,成为AIGC发展的“加速度”。
近年来资本市场一片寒冬,但AIGC领域却在全球范围逆势向上,不断传来AI智能初创公司获得新一轮融资的利好消息。目前国内外知名科技公司都完成了AIGC布局,谷歌、META、微软,百度、阿里、字节等国内外科技巨头悉数在AIGC领域有所投入。新晋AIGC行业独角兽公司同样层出不穷,以各式各样的“AI炫技”名声大噪,迅速完成了原始用户积累和品牌影响力扩散。因此2022年被称为“AIGC元年”,AIGC有望接棒元宇宙成为2023年科技和资本圈的最热门概念。
2、海外AIGC发展现状
2022年8月,美国科罗拉多州举办的新兴数字艺术家竞赛中,一位没有绘画基础的参赛者提交AIGC绘画作品《太空歌剧院》,获得了比赛“数字艺术/数字修饰照片”类别一等奖,引起业内关于“AI是否会取代艺术家”的一场争论,也将AIGC概念推向新高潮。
随着大众对于AIGC的关注度持续上升,AIGC领域的融资规模也在近期快速扩张,目前已经出现多家估值超10亿美元的独角兽公司。
10月19日,主打文字生成的AIGC公司Jasper.ai宣布完成1.25亿美元的A轮融资,估值达到15亿美元。几乎同一时间,Stability AI宣布获得1.01亿美元,公司宣布会继续研发用于生成图片、语言、音频、视频和3D的AI生成模型,投后估值达10亿美元。
国外AIGC领域既有科技巨头谷歌、META、微软等,也不乏AIGC的新晋独角兽Stability AI、Jasper、OpenAI等,并且科技公司很快又将AI作画的热度延续到了AI生成视频等领域。从Meta宣布由文本到视频的系统Make-A-Video,到谷歌宣布的可以从简单的文本提示中生成高清视频的Imagen Video和Phenaki,AIGC在海外市场迅速发展。
目前具有参照意义的海外公司主要有:
1)Zyro :围绕垂直业务场景,结合业务 knowhow 组织相关 AIGC 能力
围绕电商场景,通过 AIGC 生成网站搭建过程中所需的各类素材,具体业务包括针对性生成公司介绍、企业价值、Slogan、自动提升图片清晰度、自动生成 logo 等。
2)Nvidia:构建技术矩阵,使其最终服务于创作型工具平台
在视觉生成研究领域始终位于前沿,代表作品包括 CycleGAN、GauGAN、EditGAN、GANverse3D、Instant NeRF 等。
3)OpenAI:将其底层模型对外开放商用,开创基础设施型的商业模式
GPT-3 目前已经开始对外提供 API,并分为四种模型按照用量对外收费。
4)Gliacloud:拼凑式视频生成代表
输入文本链接,软件能够自动对其中的标题和文字进行区分表示,并根据不同层级自动匹配素材和文字的转场、格式等,进而形成说明式的视频。据公开数据,该方式能够增加 10 倍的视频产量。
类似公司还包括:Gliacloud、Synths.video、lumen5、Pencil。
5)Rosebud.ai:可结合营销数据生成无版权纠纷的图像
Rosebud.ai 能够生成非真实的人脸图像,并在该图像中匹配相关衣物等所需素材。此外,模型面孔可以根据对应受众的相关数据进行调整。该公司声称,其生成模型能够使活动点击率提升22%。
类似公司还包括:Generated Photos。
6)Persado:结合精准用户画像,实现个性化文本营销
Persado 的平台将营销创意分解为六个关键要素:叙事、情感、描述、号召性用语、格式和文字定位。通过组合各类元素,该平台能够为每位客户确定交流的个性化措辞。该平台已被多家公司用于促销电子邮件、社交媒体广告、店内展示横幅甚至广播内容等,以提高品牌参与度和转化率。
3、我国AIGC发展现状
资料显示,国内大厂百度、腾讯优图、阿里巴巴、快手、字节跳动、网易、商汤、美图等都在AIGC领域有所投入,中国信通院也在2022年联合京东探索研究院发布了AIGC白皮书,对行业进行了深入剖析和研究。
2022年11月9日,百度创始人兼首席执行官李彦宏表示,过去一年无论是在技术层面还是商业应用层面,人工智能都有了巨大的进展,有些甚至是方向性的改变。其中人工智能技术方向性改变体现就是AIGC。
李彦宏判断AIGC将迎来三个发展阶段:
“助手阶段”,AIGC辅助人类进行内容生产;
“协作阶段”,AIGC以虚实并存的虚拟人形态出现,形成人机共生的局面;
“原创阶段”,AIGC将独立完成内容创作。
其他国内大厂中,腾讯打造的写稿机器人“梦幻写手”;阿里巴巴旗下的AI在线设计平台Lubanner,帮助营销人员生产Banner;字节跳动旗下的剪映以及快手云剪都能提供AI生成视频;网易推出的一站式AI音乐创作平台“网易天音”等等。
随着AIGC的火热,国内也涌现了一批成长迅速的创业公司,代表企业如下:
1)小冰科技
2021年完成 A 轮融资,该轮融资由高瓴领投,五源、Neumann、IDG、GGV 纪源资本及上轮投资人北极光与网易公司跟投。2022年完成10亿元B轮融资,投资方尚未披露。
主营方向:小冰是全球领先的人工智能科技公司,旗下小冰框架是全球承载交互量最大的完备人工智能框架之一,在开放域对话、多模态交互、超级自然语 音、神经网络渲染及内容生成领域居于全球领先。
AIGC 相关亮点:作为 “AI being” 派虚拟人。小冰的产品始终是人 + 交互 + 内容。具体包括虚拟人(夏语冰等 somebody instance、虚拟男友等 nobody instance 和国家队人工智能裁判与教练系统观君等在垂直场景中工作的虚拟人类)、音频生成(主攻超级语言及歌声,在线歌曲生成平台与歌手 歌声合成软件 X studio)、视觉创造(毕业作品集《或然世界》、为国家纺织品开发中心、万事利等数百家机构提供了图案和纹样设计)、文本创造(2017 年即推出小冰诗集)、虚拟社交、Game AI(Xiaoice Game Studio)等。
商业客户已覆盖金融、智能车机、零售、体育、纺织、地产、文旅等十多个垂直领域,并提出了以 ” 人力 ” 的逻辑去进行商业报价的虚拟人商业模式。
2)同伴客数据
2022年完成数千万来自W&M的战略融资。
主营方向:同伴客数据是一家致力于通过数字科技为人类释放无限潜能的科技公司。核心产品是TBanic数字员工基础平台,集成了基于“DARD”技术(数据-Data、人工智能-AI、机器流程自动化-RPA、数字人-Digital Human)的数字员工开发套件,客户可以根据不同的业务场景,构造出具备对应工作技能的数字员工。同伴客的解决方案覆盖数字蓝领、数字白领和数字金领三个层级,主要包含AIGC数字员工、数据洞察数字员工、RPA数字员工、金融交易数字员工、人工增强数字员工等相关产品。目前已服务于全球超过200家客户,其中不乏世界500强企业、大型国央企和知名高校与科研院所。
AIGC相关亮点:以虚拟人数字员工的形式,为客户直接提供功能强大的AIGC机器人,涵盖了绘图、文字撰写、视频处理等相关功能,同时集成PRA、数据处理和虚拟人等技术,可以为客户提供完整的解决方案。目前同伴客的AIGC机器人作为教学仪器,在高校教育市场拥有数百家客户沉淀和绝对的竞争优势,同时也在众多世界500强企业和大型国央企中得到落地应用。
3)DeepMusic(灵动音科技)
2018年完成数千万A轮融资,由TME 领投。
主营方向:公司致力于运用AI技术从作词、作曲、编曲、演唱、混音等方面全方位降低音乐创作及制作门槛,为音乐行业提供新的产品体验,提升效率。
AIGC相关亮点:产品包括针对视频生成配乐的配乐猫、支持非音乐专业人员创作的口袋音乐、可AI生成歌词的 LYRICA、AI作曲软件LAZYCOMPOSER。目前已与国内多家音乐平台厂商达成合作。其音乐标注团队已形成了全球最精确的话语歌曲音乐信息库。
4)倒映有声
2021年完成Pre-A轮融资,投资机构为“中文在线”,温石企业顾问集团担任本轮融资独家财务顾问。
主营方向:一家以技术为核心的创新型公司和无人驱动数字分身技术解决方案供应商,通过自研神经渲染技术和TTSA技术,实现基于文本实时生成高质量语音(音频)和动画(视频),致力于成为AI数字人神经渲染引擎。
AIGC相关亮点:倒映有声将其虚拟人的高自然度归结于神经渲染(Neural Rendering)、TTSA(基于文本和语音合成实时生成音频和视频)、ETTS(富情感语音合成)、Digital Twin。通过神经渲染技术快速构建AI数字分身,通过语音+图像生成技术,生成和驱动数字分身的唇形、表情、动作、肢体姿态,创造表情自然、动作流畅、语音充满情感的高拟真度数字分身IP。2021年3月倒映有声和音频客户端「云听」签署战略合作协议。
5)超参数
超参数科技宣布完成1亿美元B轮融资,本轮融资由红杉中国领投,老股东五源资本、高榕资本跟投。
主营方向:超参数科技是一家专注于AI领域的科技公司,致力于「打造有生命的AI」,创造一个10亿人与100亿AI共同生活的虚拟世界。超参数围绕L1-L4技术路径打造极致的AI Bot,逐步为广泛用户带来全新的虚拟世界体验。
AIGC相关亮点:超参数科技提供的AI bot支持玩家陪玩(3D生存游戏AI猎户座α)、多人团队竞技(球球大作战)、非完美信息博弈AI(斗地主、德扑、麻将等)等。自有游戏AI平台“Delta”采用全新的“AI+游戏”研发管线,为开发侧和体验侧两端带来范式创新。
6)影谱科技
2018年完成D轮13.6亿元融资,投资方包括商汤科技Sensetime、软银中国,东方明珠旗下产业投资基金、PAC、前海梧桐并购基金、朗盛资本等。
主营方向:影谱科技以人工智能视觉技术产业化为主要目标,是国内领先的智能影像生产技术提供商及应用方案提供商。公司专注于视觉内容的生产效率与呈现交互方式的技术研究,通过ACM(影像商业化引擎)、AGC(影像工业化引擎)和ADT(数字孪生引擎)三大引擎,面向媒体、文化、科教等多行业领域提供一站式的智能解决方案。
AIGC相关亮点:在视频生成相关领域支持结构化视觉分析、影像自动合成技术(将视频短片、图片、音轨等按照规定效果批量化自动拼接)、智能视频编辑(基于视频中多模态信息的特征融合进行学习,按照氛围、情绪等高级语义限定,对满足条件片段进行检测并合成)、视频内容生产(对视频中的镜头、元素和场景采用不同的生成方式,同时对组件的组合方式进行学习,实现视频的自动化生产)、行为动作分析、场景信息恢复、跨模态转换等。
第二章:AIGC产业发展分析
1、AIGC核心算法
AIGC 技术主要涉及两个方面:自然语言处理 NLP 和 AIGC 生成算法。随着 NLP(Natural Language Processing,自然语言处理)技术和扩散模型(Diffusion Model)的发展,AI不再仅作为内容创造的辅助工具,创造生成内容成为了可能。
近年来,AIGC的快速发展归功于生成算法领域的技术积累,其中包含了:生成对抗网络(GAN)、变微分自动编码器(VAE)、标准化流模型(NFs)、自回归模型(AR)、能量模型和扩散模型(Diffusion Model)。可以看到,大模型、大数据、大算力是未来的发展趋势。算法模型的突破是近年来AIGC得以快速突破的催化剂,最常用的两个模式,即生成对抗网络和扩散模型。
- 生成对抗网络GAN(Generative Adversarial Networks)
2014年,Ian J.Goodfellow 提出了GAN,是一种深度神经网络架构,由一个生成网络和一个判别网络组成。生成网络产生“假”数据,并试图欺骗判别网络;判别网络对生成数据进行真伪鉴别,试图正确识别所有“假”数据。在训练迭代的过程中,两个网络持续地进化和对抗,直到达到平衡状态,判别网络无法再识别“假”数据,训练结束。
GAN被广泛应用于广告、游戏、娱乐、媒体、制药等行业,可以用来创造虚构的人物、场景,模拟人脸老化,图像风格变换,以及产生化学分子式等等。
优点:能更好建模数据分布。无需利用马尔科夫链反复采样,无需在学习过程中进行推断,没有复杂的变分下界,避开近似计算棘手的概率的难题。
缺点:难训练,不稳定。生成器和判别器之间需要很好的同步,但是在实际训练中很容易判别器收敛,生成器发散。两者的训练需要精心的设计。可能会出现模式缺失(Mode Collapse)问题。GANs 的学习过程可能出现模式缺失,生成器开始退化,总是生成同样的样本点,无法继续学习。
- 扩散模型Diffusion Model
扩散模型是一种新型的生成模型,可生成各种高分辨率图像。在OpenAI,Nvidia和 Google设法训练大模型之后,它们已经引起了很多关注。基于扩散模型的示例架构包括 GLIDE,DALLE-2,Imagen和完全开源的稳定扩散。扩散模型已经拥有了成为下一代图像生成模型的代表的潜力。以 DALL-E 为例,能够直接通过文本描述生成图像,让计算机也拥有了人的创造力。
扩散模型的生成逻辑相比其他的模型更接近人的思维模式,也是为什么近期AIGC拥有了开放性的创造力。本质上,扩散模型的工作原理是通过连续添加高斯噪声来破坏训练数据,然后通过反转这个噪声过程来学习恢复数据。训练后,我们可以通过简单地将随机采样的噪声传递给学习的去噪过程来生成数据。
相比于其他模型,扩散模型的优势在于生成的图像质量更高,且无需通过对抗性训练,这使得其训练的效率有所提升。同时,扩散模型还具有可扩展性和并行性。
高斯噪声是一种概率密度函数符合正态分布的函数,当AIGC运用扩散模型来生成内容 的时候,是通过在一副纯白的画布(随机白噪声)上逐步去噪来生成最终的目标画作。即用户给出的文本描述形容词,来从一个模糊的概念逐步具象。我们可以简化为多个正态分布函数的叠加,模型选择其中重叠的区间输出,这也是一个逐步缩小范围的过程。这与人类的思维模式很类似。简言之,在AI训练阶段,我们将数据集中上亿组图文对进行训练,提取特征值;生产过程中,通过添加文字描述,引入不同的特征值进行去噪,从而生产一副AI理解下的内容作品。例如,在当我们在脑海中想象一个画面的时候,比如:一只柯基通过一个小号玩火焰。我们的思维模式也是先有一只柯基,再去想象小号和火焰,最后将这些元素叠加在柯基身上。
简述完原理以后,我们可以通过目前非常先进的AI图像生成应用DALL-E2来举例阐述 具体的工作过程:将文本提示输入到一个经过训练能够将提示映射到表示空间的文本编码器中;通过一个被称为“先验”(Prior)的模型,将文本编码映射到图像编码器中。这一图像编码器会捕获文本编码包含的信息和语义;图像编码器随机生成一个图像,这一图像是该语义信息的视觉表现。这一个过程和人类的思维模式相似。在生成的过程中,涉及到了文本编码器这一概念,目前主流的文本编码器是来自于OpenAI的Clip模型,其通过4亿组文字-图片对进行训练。当然,其中的模型训练都是基于英文实现,语言的区别又会给AIGC带来另一重挑战。
除了上述提到的AIGC生成算法模型以外,超级计算机和算力这些硬件作为基础设施也是不可或缺的。在机器学习的过程中,需要通过大量的训练来实现更准确的结果,这样的计算量普通的电脑是无法完成的,目前主要由英伟达A100构建的计算集群完成,而国内外的初创企业也会通过云实现。
2、AIGC数据与算力
数据、算力、算法是驱动AIGC发展的三驾马车,要实现AIGC的发展,这三者缺一不可。目前,结合自然语言的大模型与数据集已成为 AIGC 发展的软件基础,OpenAI 的 Clip 模型基于4亿组高质量的英文图文对应数据训练而成;算力即权力将在AIGC数字时代更加凸显,Stable Diffusion目前依赖于4000个英伟达A100的GPU集群,运营成本超 5000万美金。为了让功能更加精确,未来还将更多地基于语种去开发垂直类的应用,便于更有目的性地为特定功能进行训练。
然而,AIGC的算法、算力和数据,都需要企业投入大量的资金,这就导致AIGC初创企业的经营成本居高不下。以新晋独角兽企业Stability AI为例,该公司为维护一个拥有4000块英伟达A100 GPU组成的算力群,总计花费超5000万美元。
较高的前期投入,要求AIGC企业用户规模能够迅速扩张。因为只有行业用户规模达到一定体量,才能够摊平成本,扭亏为盈。过去的经验表明,要在短时间内实现用户规模的快速增长,需要提供标准化的服务内容,毕竟标准的等于大众的,也等于成规模的用户需求满足。
而且,AIGC自身的特点,其实也限制了服务标准化的进程。由于AIGC生成内容具有不稳定性,内容质量层次不齐,无法形成统一的质量标准,一定程度上限制了用户规模的扩张,也限制了AIGC企业的赚钱能力的提升。
不仅如此,由于AIGC赛道正处于摸索阶段,公司战略以完善技术水平、考察消费者需求为主,大部分技术没有完善到足以实际运用到生产之中,而小部分相对成熟的应用,也为了吸引顾客,而处在免费试用的阶段。这就意味着,AIGC技术本身缺乏变现能力。投入增多,而收入不够,使得众多AIGC公司处于亏损状态。
并且,这种亏损状态,长期内,并不会因用户规模的增多而得到改善。因为,一旦行业用户规模达到一定体量,大厂们必然会加速入场,此时行业竞争加剧,一方面会促进企业增加成本投入;另一方面也会导致企业收入减少。那时,面对着AIGC有限的变现能力,加上持续不断的成本投入,势必对AIGC企业形成非常大的经营压力。
第三章:AIGC应用场景分析
1、AIGC应用场景汇总
按照AIGC的发展逻辑,主要可以分为3个阶段:一是AIGC内容生产技术完善阶段,能够实现文本、视频、图片生成以及三者的跨模态转换;二是具有多模态生成技术的聚合应用——虚拟人;三是AIGC内容生态聚合体——元宇宙。
未来,AIGC将有望成为数字内容创新发展的新引擎。
1)AIGC能够以优于人类的制造能力和知识水平承担信息挖掘、素材调用、复刻编辑等基础性机械劳动,从技术层面实现以低边际成本、高效率的方式满足海量个性化需求。
2)AIGC能够通过支持数字内容与其他产业的多维互动、融合渗透从而孕育新业态新模式。
3)助力“元宇宙”发展。通过AIGC加速复刻物理世界、进行无限内容创作,从而实现自发有机生长。
长期来看,AIGC与各行业的融合,有望创造更多的应用场景,大幅提高各行业的内容创作效率。
1)AIGC+传媒:写稿机器人、采访助手、视频字幕生成、语音播报、视频锦集、人工智能合成主播。
2)AIGC+电商:商品3D模型、虚拟主播、虚拟货场。
3)AIGC+影视:AI剧本创作、AI合成人脸和声音、AI创作角色和场景、AI自动生成影视预告片。
4)AIGC+娱乐:AI换脸应用(如FaceAPP、ZAO)、AI作曲(如初音未来虚拟歌姬)、AI合成音视频动画。
5)AIGC+教育:AI合成虚拟教师、AI根据课本制作历史人物形象、AI将2D课本转换为3D。
6)AIGC+金融:通过AIGC实现金融资讯、产品介绍视频内容的自动化生产,通过AIGC塑造虚拟数字人客服。
7)AIGC+医疗;AIGC为失声者合成语言音频、为残疾人合成肢体投影、为心理疾病患者合成医护陪伴。
8)AIGC+工业:通过AIGC完成工程设计中重复的低层次任务,通过AIGC生成衍生设计,为工程师提供灵感。
2、AIGC商业模式分析
商业模式上看,目前AIGC企业主要有以下几种商业模式:
1)作为底层平台接入其他产品对外开放,按照数据请求量和实际计算量计算:GPT-3对外提供API接口,采用的四种模型分别采用不同的按量收费方式。
2)按产出内容量收费:包括DALL·E、Deep Dream Generator等AI图像生成平台大多按照图像张数收费。
3)直接对外提供软件:例如个性化营销文本写作工具AX Semantics则以约1900人民币/月的价格对外出售,并以约4800欧元/月的价格提供支持定制的电子商务版本。大部分C端AGC工具则以约80人民币/月的价格对外出售。
4)模型训练费用:适用于NPC训练等个性化定制需求较强的领域。
5)根据具体属性收费:例如版权授予(支持短期使用权、长期使用权、排他性使用权和所有权多种合作模式,拥有设计图案的版权)、是否支持商业用途(个人用途、企业使用、品牌使用等)、透明框架和分辨率等。
商业门槛来看,虽然AIGC是一个重技术的行业,但是由于众多开源平台的存在,以及软件技术的可复制性,单纯的技术和算法,很难成为AIGC行业的主要竞争壁垒。AIGC相关企业如果想建立长久的竞争优势,还需要在一体化解决方案、行业深度绑定、业务闭环等领域不断耕耘。应该说,技术是AIGC企业成功的必要条件,但不是充分条件,对于商业能力的把控,会是未来AIGC赛道中相关企业的竞争焦点。
1)打造一体化解决方案服务能力:AIGC本质上提供的是内容的生成工具,和传统的内容辅助编辑逻辑是相同的。采集、生产、媒资管理、分发消费等视频整个生命周期,一般都需要覆盖内容生成的全生命周期。
2)与行业的深度绑定关系:通过和行业形成深度绑定关系,接入相关平台或底层系统的,与原来的内容载体建立良好的合作关系,除去说明场景可行性外,还需要强调对方在基础架构上的配合意愿。
3)构建业务闭环:创作型的工具如何得到反馈的手段,需要新的模式形成闭环。需要从“拼接式”(需要大量的人工标注数据,只能针对具体任务,不会自我成长)到“进化式”(创造特定条件和核心能力,使之能够完成通用任务并自我成长),并与用户增加对话轮次、建立情感链接。
第四章:AIGC发展预测
1、AIGC发展前景
目前,科技圈和资本圈普遍对于AIGC的发展抱有很大的期望,AIGC有望接棒元宇宙,成为2023年科技圈的热点。
2022年7月,百度世界大会上李彦宏这样预言到:“未来十年,AIGC(人工智能自主生产内容)将颠覆现有内容生产模式。可以实现以十分之一的成本,以百倍千倍的生产速度,去生成AI原创内容。”
2022年9月,红杉资本联合GPT-3,发布了一篇名为《生成式AI:一个创造性的新世界》的文章,并且立刻引爆了AIGC赛道。“人们的梦想:生成式AI将创造和知识工作的编辑成本降至零,生产巨大的劳动生产率和经济价值,以及相应的市值。”按照其中的理解,AI能够让人效突破现在技术条件的天花板,未来企业的增长将不再受制于人力和成本,企业的经营效率也会随之发生质变。
在移动互联网时代,关于未来的畅想,已经进行过很多次,从当初红极一时的元宇宙和Web 3,就像给大众营造的一场科技幻想,跳脱出时间和空间的维度,充斥着对未来的无限期待,这也是很多极客的毕生夙愿。剧本是如此的相似,只不过这次的主角换成了AIGC。伴随着文本、图片、视频以及三者跨模态相互转化方面的技术不断突破,我们所熟悉的AI行业,正意欲重构人类生产力和生产关系的变革,这究竟是一时昙花,还是一片新的蓝海,还有待市场和时间的检验。
现在的AIGC仍处于早期摸索期,发展的有限程度导致了目前应用场景的有限。也许未来技术的突破,能够不断扩展AIGC的应用场景,但短期内各企业能做的,只是优化模型,从而提高其与应用场景的适配度。
公开数据显示,在未来2-3年间,AIGC的初创公司和商业落地方案将持续增加;到2030年,AIGC市场规模或将超过万亿人民币。
从PGC到UGC再到 AIGC,AIGC能让人类突破内容生产力枷锁,高效率生成高质量内容,让人类进入到真正的元宇宙之中。若要AIGC能够满足元宇宙的需求,独立完成高质量、高精度的内容,AIGC技术层面还需要一定的发展,我们可以分为软硬件两个维度看,软件层面主要包括自然语言处理技术、AIGC生成算法模型和数据集,硬件层面主要是算力、通信网络。
从业务层面看,结合国内外发展情况,目前在AIGC的知识产权归属方面尚有法律空缺,且创作伦理问题也未得到有效解决,因此无论是技术还是商业层面,高质、干净的数据集对于模型训练及内容生成均有至关重要的影响。同时,随着AIGC逐步落地,其算力需求将大增,未来相关企业除用云计算之外,或组建自有算力集群,考虑到英伟达A100、 H100出口受限,相关国产算力芯片将有机会获得增量市场。
从主题投资的角度看,区块链、元宇宙、Web3 均描述了数字经济时代中宏大的应用场景,而去年被资本市场关注的虚拟人、NFT等只是其中的具体应用之一。未来,AIGC可能将是推动数字经济从Web2向 Web3升级的重要生产力工具:一方面,其对现有的杀手级应用——短视频、游戏等具有颠覆式影响,或进一步扩大内容量、提高成瘾性,同时对社交和广告提供新的工具;另一方面,Web3 开放、共建的价值观下,UGC、AIGC的内容会更具吸引力,二次创作、开放想象的浪潮将来临。目前AIGC已成为硅谷最新热门方向,国内一级市场、互联网大厂等对AIGC应用关注度也在快速提升中。
2、AIGC待解决问题
尽管AIGC发展前景广阔,但也存在着很多难以解决的问题,影响了其商业化的进程。
1)技术不成熟
技术上来看,虽然当前生成的图片、文字已经可以用以商业用途,但还存在一些问题使得无法满足较高的质量要求。在不太关注细节的大场景图片生成中,AIGC的表现较好。但对于比较具体和细节的内容,生成的效果不尽如人意。这主要是由于自然语义的理解在处理一些空间关系上还存在一定的误差,同时业内大部分机构都在采用开源的 OpenAI 的 Clip 模型。其函数是开源的,但训练的数据集是封闭的,数据集的质量、合规性、风格偏向都会决定生成的内容质量。
2)版权不清晰
AIGC本质上是机器学习,因而无法避免使用大量的数据集执行训练,在这之中确实存在损害图片版权者的利益。对于艺术家来说,虽然认为这些平台侵害了自己的权益,但是现在仍没有完善的法律规定此类侵权行为,甚至在某些法律条文中,这种行为是合法的。
一方面,AIGC难以被称为“作者”。著作权法一般规定,作者只能是自然人、法人或非法人组织,很显然AIGC不是被法律所认可的权利主体,因此不能成为著作权的主体。但AIGC应用对生成的图片版权问题持有不同观点,图片属于平台、完全开源还是生成者,目前尚未形成统一意见。
另一方面,AIGC产生的“作品”尚存争议。传统意义上的作品是指文学、艺术和科学领域内具有独创性并能以某种有形形式复制的智力成果。AIGC的作品具有较强的随机性和算法主导性,能够准确证明AIGC作品侵权的可能性较低。同时,AIGC是否具有独创性目前难以一概而论,个案差异较大。
即使现在把自己的作品从数据集中删除也无法阻止自己风格作品的生成,首先,AI 模型已经过训练,对应风格已经掌握。而且,由于OpenAI的CLIP模型(于训练Stable Diffusion 以理解文字和图像之间的联系),用户仍然可以调用特定的艺术风格。
对于AI项目方来说,让数据集每张图片都得到授权是不现实的,如果此类法案通过,那么 AI 行业的发展将受到很大的阻碍,或许是灭顶之灾。
3)壁垒不够高
AIGC 产业链涉及环节众多。上游生成算法的环节,存在着一定程度上改进国外开源模型的情况。渲染、模型训练等环节,也大多依赖国外GPU。
目前各种各样的 AIGC 范式,大都建立在国外的论文、开源模型上。这些建立在开源模型上的AIGC并没有核心技术壁垒。即便辛苦做出的小幅度优化,往往会被开源方发布的新版本所抹平。
同时在应用场景上,目前AIGC只是工具链上的某个环节的增强,初创公司很难与完整工具链和生态的企业竞争。如国内虽然有大量项目对标新一代的Figma、Canva或者短视频创作工具,但是Figma已经集成了Stable Diffusion的生成模型,而字节跳动这样的企业在短视频AIGC方面也有深厚的积累和创新。即使游戏领域,一个游戏引擎是一套非常复杂的工具链体系,也不仅仅是个渲染器。
目前,国内正在朝着自主可控的方向发展,这要求AIGC领域的创新型企业在加强原创性研究的同时,尽快将技术转化为知识产权,形成行业壁垒与竞争力。
4)商业不清晰
尽管AIGC为人类描绘了一个美好的未来,但是其商业路径并不足够清晰,客户的付费意愿也不是非常明确。目前各家公司为了抢占用户,很多都采用了免费体验的模式,而目前AIGC提供的服务,不管是绘图、文字还是视频,都很难精准的满足客户的需求,更多的是为专业设计人员提供思路和参考价值,其实际商业化价值仍然让客户抱有怀疑。
同时,最为一项工具属性较强的技术,AIGC尚未出现UGC时代的大平台、杀手级应用和现象级项目。AIGC虽然得到了资本的青睐,但商业模式清晰、能够获得持续稳定现金流、竞争壁垒较强的新兴公司尚没有出现,更多的是大公司在新技术领域不计成本的前沿布局。因此,AIGC技术发展和商业化进程不及预期的风险仍然较大。
参考资料:
《AIGC的十大前沿创新》 孙思明
《国内外最值得关注的AIGC机构》量子位
《AIGC:Web3时代的生产力工具》宋嘉吉、金郁欣
《突然爆火的AIGC究竟是不是泡沫?》顾煜
《AIGC产业链全梳理》杨江凯
《人工智能生成内容(AIGC)白皮书(2022年)》中国信通院
同伴客数据与至顶科技共同编写了《AIGC人工智能生产内容行业研究报告》。AIGC被资本给予厚望,AIGC行业迎来的新的发展契机,但在政策、商业和法律等层面,仍然存在很大风险。 前言: 2022年8月,美国科罗拉多州举办的新兴数字艺术家竞赛中,一位没有绘画基础的…