科普 | AI生成图与电影画面傻傻分不清?揭秘AI绘画成功背后的技术支持

447次阅读
没有评论

《追AI的人》之AI科普系列短视频,将持续用简单清晰的语言向公众解释对于人工智能的普遍疑问,推动社会就人工智能的发展和治理达成共识。

科普 | AI生成图与电影画面傻傻分不清?揭秘AI绘画成功背后的技术支持
2022年2月,开源工具AI绘画工具Disco Diffusion发布,这是一个在 Google Colab上运行的代码,其原理是使用了CLIP-Guided Diffusion,只需要输入文本提示,就能生成对应的图片。同年4月,OpenAI发布了Dall-E2,能够生成更高分辨率和真实性的图像。同时,AI绘画工具Midjourney发布。Google在5月、6月分别发布AI作画的技术,Imagen和Parti。7月份,Stability AI在LAION 5B开源数据集上训练了文生图扩散模型Stable Diffusion,生成的图像形象逼真,画质细腻。
技术的开源,极大地推动了图像生成领域的发展。2022年8月,在美国科罗拉多州举办的新兴数字艺术家竞赛中,参赛者提交了使用模型生成的绘画作品《太空歌剧院》,获得了“数字艺术/数字修饰照片”类别一等奖。参赛者并没有绘画基础,通过AI绘图软件MidJourney耗时80个小时创作了该作品。这意味着AI绘画的质量已经达到了专业水平。
进入到2023年,AI绘画继续井喷式发展。2023年3月,百度发布的文心一言支持了文本生成图像,Adobe也发布了AI工具Firefly。也是在3月,MidJourney V5发布,生成质量更高,而且支持自然语言的描述输入,使得AI绘画的门槛进一步降低。阿里巴巴于7月推出了新的绘画AI“通义万相”。科大讯飞、商汤、华为等人工智能企业也陆续推出文生图大模型产品,国内呈现“百模大战”的竞争格局。
AI绘画的技术突破式发展依赖以下3个技术的积累和突破::
1)在生成式模型方面,扩散模型的提出使得图像生成技术在基础理论上取得了突破。扩散模型(Diffusion Models)相比生成对抗网络(GAN)和变分自编码器(VAE),具有训练更加稳定,采样过程可控,生成的样本质量更好等优点。
2)在图文对齐模型上,OpenAI的CLIP模型的提出为文本和图像两个模态构建了桥梁,奠定了文本生成图片的技术基座。
3)VQGAN,VQVAE这类视觉量化生成模型,可以将图像压缩到量化的隐空间,从而为高效的隐空间扩散模型训练提供了基础。
此外,可以通过微调开源的Stable Diffusion模型来开发定制化的AI绘画模型,这使得AI绘画模型出现了百花齐放的现象。同时,AI绘画的技术也通过引入更多的其他信息辅助生成想要的图片,使得结果更加可控。例如近期的ControlNet,通过引入另外一个图片作为条件信息,控制文本生成的图片的风格,进一步提升了可用性。
文生图在多个行业上具有广泛的应用前景,例如在广告行业,AI制作宣传海报;在设计行业,AI辅助艺术创作、服装设计等;在电商行业,有虚拟模特、虚拟试衣等应用场景。另外,文生图在游戏和漫画等行业的应用也会加速内容制作的速度。

科普 | AI生成图与电影画面傻傻分不清?揭秘AI绘画成功背后的技术支持


语言大模型、视觉大模型等通用大模型就像一个高中生,具有了基础的逻辑、认知、知识处理等通用能力;随着行业、产业对智能化需求的升级,不少领域已经开始对通用大模型这位“高中生”开展进一步的专业训练,让其成为行业领域的专家,提供专业领域的咨询、服务、工作的行业大模型。相较于通用大模型,行业大模型具有定制化、易部署、可微调、强安全等特点,能够有效适用于具体应用场景,更准确解决专业领域问题,提升行业效能。目前,部分行业大模型已经在电力、交通、金融、能源、民生服务、互联网等行业的智能化中崭露头角。
例如,智能办公提效需求强烈,也是AI大模型赋能优先级最高的场景之一。以企业协同工具钉钉为例,2023年4月正式接入通义千问大模型后,群聊、文档、视频会议及应用开发的智能化场景作为首发,通过输入“/”魔法棒可以唤起10余项AI能力,智能化程度显著提升,减少了人工重复操作成本,升级成为智能协同办公平台+智能应用开发平台。

科普 | AI生成图与电影画面傻傻分不清?揭秘AI绘画成功背后的技术支持

大模型在医疗领域有广泛的应用,在患教助手、问诊在线值班医生、医疗随访、临床辅助决策和过程质控、影像助手、临床科研助理、药物研发数据洞察、医疗保险助手等场景都可以发挥巨大作用。阿里健康基于以上场景,致力于研发“先进且可靠”的垂直领域大模型,通过使用万级的书籍文献,并结合专家经验,通过专家审核,构建了十万级疾病词条和百万级医患问答、百万级别医学术语集、全病种疾病及合理用药知识图谱,在各类平台及各级医疗机构的信息集成、专业语言理解及归纳总结等方面实现了突破,目前已达到一对一个性化咨询服务、提升愈后跟踪性研究效率等成效。科普 | AI生成图与电影画面傻傻分不清?揭秘AI绘画成功背后的技术支持
上述内容来自于《生成式人工智能治理与实践白皮书》,更多精彩分享,请点击👇科普 | AI生成图与电影画面傻傻分不清?揭秘AI绘画成功背后的技术支持


💗AAIG给大家拜年咯
📌往期推荐
📖2023生成式人工智能治理系列丛书生成式人工智能的发展以及担忧|生成式人工智能的治理愿景和框架...👉点击查收全文链接
🌟2022人工智能治理系列丛书 精华大图集锦版 | 如何维护电商平台信息真实和竞争公平…👉点击查收白皮书全书连载
🔥《追AI的人》系列直播教你掌握互联网的“流量密码”  | 如何避免ChatGPT被滥用👉点击查收过往34期直播的全部文字回放
🎈算法治理制度》系列丛书内容和电商领域推荐算法的应用与治理差异“大数据杀熟” 的背后👉点击阅读更多算法治理干货
📺 AI治理科普短视频流量为王的时代,教你如何“破圈”创作 3分钟Get多模态是什么? 信息茧房和马太效应是什么👉点击观看往期24期精彩视频

👇AAIG课代表,获取最新动态就找她科普 | AI生成图与电影画面傻傻分不清?揭秘AI绘画成功背后的技术支持

 关注公众号发现更多干货❤️

科普 | AI生成图与电影画面傻傻分不清?揭秘AI绘画成功背后的技术支持
科普 | AI生成图与电影画面傻傻分不清?揭秘AI绘画成功背后的技术支持科普 | AI生成图与电影画面傻傻分不清?揭秘AI绘画成功背后的技术支持有启发点在看喔👇科普 | AI生成图与电影画面傻傻分不清?揭秘AI绘画成功背后的技术支持

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy