ChatGPT行业进程:AIGC全面开花

1,254次阅读
没有评论

AIGC简介

AIGC是什么?

AIGC: Artificial Intelligence Generated Context,即可以利用人工智能技术自动产生内容,常见如代码生成,文本问答等。

ChatGPT在AIGC矩阵中的功能

ChatGPT是AIGC“数字内容智能编辑” 功能中的重要组成部分,ChatGPT 模型的出现对于文字/语音模态的 AIGC 应用具有重要意义。

随着深度学习技术的快速突破以及数字内容的海量增长,AIGC领域相关技术打破了预定义规则的局限性,使得快速便捷且智慧地输出多模态的数字内容成为可能。

在技术创新以及多模态模型的持续突破下,AIGC根据功能和对象的不同,按顺序可包括三种主要实用功能

  • 数字内容孪生
  • 数字内容的智能编辑
  • 数字内容的智能创作

这三种功能相互嵌套与结合,可以让AIGC产品具备超越人类的创作潜力。而ChatGPT正是AIGC的数字内容智能编辑这一大功能领域中的重要组成部分

AIGC相关技术包含三大前沿能力

  1. 数字内容孪生能力构建现实世界-虚拟世界映射

孪生能力包括智能增强与转译技术,其中增强技术弥补内容数字化过程中的信息损失,转译技术在理解基础上对内容进行多种形式呈现。

2. 数字编辑能力打通现实世界虚拟世界交互通道

编辑能力包括智能语义理解与属性控制,语义理解帮助实现数字内容各属性的分离解耦,属性控制则在理解基础上对属性进行精确修改、编辑与二次生成,最终反馈于现实世界,形成孪生-反馈闭环。

3. 数字创作能力从数据理解走向数据创作

创作能力可分为基于模仿的创作与基于概念的创作,前者基于对某一类作品数据分布进行创作,而后者从海量数据中学习抽象概念,并基于概念创作出现实世界不存在的内容。

AIGC行业发展经历三个主要时期

AIGC发展经历了早期萌芽、沉淀积累和2014年之后的快速发展阶段。

AIGC落地因素

生成式AI赋予AIGC创新力

生成式AI起源于分析式AI,分析式AI发展过程中的技术积累为生成式AI的产生奠定基础。分析式AI其学习的知识局限于数据本身;生成式AI在总结归纳数据知识的基础上可生成数据中不存在的样本。最新生成式AI技术如GAN,Diffusion等,催生多款AIGC产品如:OpenAI系列、DALL·E2(Diffusion),Starry A.I.(基于GAN)等。

AIGC是在分析式AI的基础上,学习数据产生模式,实现新样本内容的创造。

分析式AI:利用机器学习技术学习数据分布,进行如分类,预测等任务。发展过程中诞生了卷积神经网络,残差深度网络,Transformer网络结构等。

  • 推荐系统:挖掘用户与物品的关联关系
  • 人脸识别:根据输入人脸信息进行身份判别
  • 文字识别:根据文字图片输出文本

生成式AI:在学习归纳数据分布的基础上,学习数据产生的模式,并创造数据中不存在的新样本。在分析式AI技术基础上诞生大型Transformer网络,Diffusion等新模型。

  • 文字创作:通过提示文本生成完整文案
  • 图像生成:根据关键信息生成风格多样图片,如博客配图,海报图片等
  • 代码生成:根据上下文生成完整代码

AI模型的升级为AIGC奠定基础

人工智能技术推动AIGC行业不断发展,其中学习范式的更新赋予AI模型主动学习能力,模型结构升级提升AI模型学习、归纳与创新能力。

AIGC相关产业

AIGC关联产业市场框架

AIGC关联产业可分为应用层、模型层、云计算平台与计算硬件层。

计算硬件层结合云计算平台为AIGC提供机器学习训练与推理算力,其中GPU与TPU为硬件核心,主要参与厂商包括英伟达(GPU)与谷歌(TPU);云平台参与厂商则包含AWS,GCP,Azure以及Coreweave;计算硬件层中云计算平台厂商分布稳定,竞争出现于模型层面与应用层面

模型层面,闭源基础模型提供商如OpenAI通过API向用户提供服务,而开源基础模型则通过在托管平台如Hugging Face、Replica公开模型权重。模型训练其高计算力需求推动了模型层厂商与云计算厂商建立合作关系(如 OpenAI+Azure,GCP+DeepMind。模型层面闭源模型较为普遍,各厂商依靠模型建立技术壁垒。

应用层面,MidJourney,Runway等自主研发、持有模型;而Jasper,Github Copilot则通过调用闭源模型商提供的API或采用托管平台共享的模型。

AIGC产业链上中下游玩家

AIGC上游主要包括数据供给方、算法机构、创作者生态以及底层配合工具等,中游主要是文字、图像、音频和视频处理厂商,其中玩家众多;下游主要是各类内容创作及分发平台以及内容服务机构等。

AIGC厂商竞争力

追根溯源,AIGC依赖于底层机器学习模型产生内容,因此模型为AIGC行业厂商真正竞争力所在。

文本生成产品多依赖GPT系列模型,自己训练的模型在图像/视频模态产品中较为普遍(图像/视频模态产品通常拥有自己训练的模型,而不是如文本模态调用OpenAI提供的模型服务) 。

比较而言,OpenAI依靠模型建立先发竞争优势,技术到产品转化相对亮眼 。

AIGC发展预判

AIGC生态内容生产模式预判

AIGC所属内容生产生态的发展经历了专家生产内容(PGC)、用户生成内容(UGC)、AI辅助生产内容、AI生产内容(AIGC)四个阶段,目前处于一、二阶段为主,第三阶段为辅的境况。AIGC克服PGC与UGC存在的质量、产量无法兼具的缺点,其有望成为未来主流的内容生产模式。

第一阶段:PGC (电视,电影游戏等)

  • 由专业团队生产,内容质量高
  • 内容生产门槛高,垄断严重
  • 生产周期长,难以满足大规模生产需求

第二阶段:UGC (短视频,社交媒体文章,播客等 )

  • 创作工具下放,用户可自行生产内容,创作门槛、成本降低
  • 内容生产参与者众多,创作生态繁荣,个性化程度高
  • 创作者参差不齐,内容质量不高

第三阶段:AIGC辅助 (AI辅助文字创作,图片创作等 )

  • AI技术学习的专业知识辅助内容生产环节,提高内容质量
  • AI技术实现自动化内容生产,减少创作耗时,提高内容生产规模天花板
  • 人在关键环节依然需要输入指令,没有做到完全自主性

第四阶段:AIGC (AI自主文字创作,图片创作等 )

  • 实现完全自主性

AIGC应用场景

AIGC生成技术分类

AIGC生成技术可按模态进行分类,根据其内容模态不同可分为文本、视频、图像,音频与跨模态生成。

  • 视频:视频画质增强、内容创作、风格迁移…
  • 文本:文本创作、代码生成、对话问答…
  • 图像:图片编辑、图片生成、3D图像生成…
  • 音频:文本合成语音、语音克隆、音乐生成…
  • 跨模式:文字合成图片、文字合成视频…

AIGC不同模态对应的应用场景

AIGC不同模态对应的技术应用场景也有着各自的细分品类。

  • 文本生成:分为非交互式文本和交互式文本
  • 图像生成:分为图像编辑工具和图像自主生成工具
  • 音频生成:包括语音克隆、文本生成特定音,音乐生成
  • 视频生成:视频属性编辑,视频自动剪辑,视频部分编辑
  • 策略生成:AI基于特定问题和场景,自主提出解决方案的过程。 此类技术在游戏、 自动驾驶、机器人控制等领域有极高应用价值
  • GameAl:游戏本身为AI提供了最佳的研发场景,有大量数据和贴近实际场景
  • 虚拟人生成:指存在于非物理世界(如图片、 视频、直播、 一体服务机、 VR)中,并具有多重人类特征的综合产物

AIGC细分模态的发展现状

AIGC文本生成

AIGC非交互式文本生成技术中,结构化写作其形式相对固定,生成难度较小,商业化应用较为广泛;而创作型写作开放性较大,在长文本生成中难度较大,仍需技术进一步发展。随着通信互联网技术发展,线上社交需求快速增长,如闲聊机器人等交互式文本产品将迎来快速发展。

文本生成技术商业化落地有比较优势

  • 文本易于获得:相较于其他模态数据,文本数据易于获得且数量庞大,满足大规模预训练模型对数据量的需求。
  • 文本表达信息更为高效: 相比图片,语音,视频等模态,文本信息在存储、处理、传输时占用资源少,而信息量不逊色于图片等。在这种优势文本将成为人机交互等领域的首选。
  • 大模型趋势下文本预训练实现难度小: 文本数据其离散的性质使得相同模型架构下大模型训练消耗资源低与图片/视频。

AIGC图像生成

模型结构不断进化提高了AIGC生产图像的多样性,但要求较高的功能实现还有待于技术的进一步提升。

“图像编辑” 难度低于“图像生成” 与“2D-3D” 转换,目前已存在多款产品支持“图像编辑” ,而对于“图像生成”任务,由于图片相较包含更多元素,其生成效果仍存在不稳定性,对于要求较高的功能类图像生成仍需要技术上的提升。

AIGC音频生成

文本到语音任务已比较成熟,语音质量已达到自然的标准,未来将朝更富情感、富韵律的语音合成以及小样本语音学习方向发展。音乐生成任务中仍需解决音乐数据难以标注的问题,数据标注其颗粒度大小影响音乐生成任务的可控性。若可控性得以解决,则可指定风格、情绪等因素的音乐生成任务有希望在影视、游戏等场景下的到大量应用。

AIGC视频生成

视频生成本质上与图片生成类似,通过对视频进行帧数级别的切割,实现对每一帧的处理。视频生成过程包括三个阶段:数据的提取、训练和转换,当前技术正在着重提升视频修改精准度和实时性两个维度。鉴于视频本身的文本、图像和音频的综合属性,视频生成也是跨模态生成领域的重要应用场景。

视频生成技术具体包括视频属性编辑、 视频自动剪辑、 视频部分编辑。

  • 视频属性编辑:视频画质修复,添加特定内容,视频美颜等其产品如:Runway ML、Wisecut等
  • 视频自动剪辑:利用AI技术检测视频片段,生成预告片,宣传视频等其产品如:IBM Watson
  • 视频内容动态编辑:利用AI技术对视频中的内容进行动态编辑,更换演员面部等其产品如:Faceswap,Deepfakes等。

相关推荐: ChatGPT行业进程:AIGC全面开花

AIGC简介 AIGC是什么? AIGC: Artificial Intelligence Generated Context,即可以利用人工智能技术自动产生内容,常见如代码生成,文本问答等。 ChatGPT在AIGC矩阵中的功能 ChatGPT是AIGC“数…

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)