科普 | AI生成图与电影画面傻傻分不清?揭秘AI绘画成功背后的技术支持

2,055次阅读
没有评论

《追AI的人》之AI科普系列短视频,将持续用简单清晰的语言向公众解释对于人工智能的普遍疑问,推动社会就人工智能的发展和治理达成共识。

科普 | AI生成图与电影画面傻傻分不清?揭秘AI绘画成功背后的技术支持
2022年2月,开源工具AI绘画工具Disco Diffusion发布,这是一个在 Google Colab上运行的代码,其原理是使用了CLIP-Guided Diffusion,只需要输入文本提示,就能生成对应的图片。同年4月,OpenAI发布了Dall-E2,能够生成更高分辨率和真实性的图像。同时,AI绘画工具Midjourney发布。Google在5月、6月分别发布AI作画的技术,Imagen和Parti。7月份,Stability AI在LAION 5B开源数据集上训练了文生图扩散模型Stable Diffusion,生成的图像形象逼真,画质细腻。
技术的开源,极大地推动了图像生成领域的发展。2022年8月,在美国科罗拉多州举办的新兴数字艺术家竞赛中,参赛者提交了使用模型生成的绘画作品《太空歌剧院》,获得了“数字艺术/数字修饰照片”类别一等奖。参赛者并没有绘画基础,通过AI绘图软件MidJourney耗时80个小时创作了该作品。这意味着AI绘画的质量已经达到了专业水平。
进入到2023年,AI绘画继续井喷式发展。2023年3月,百度发布的文心一言支持了文本生成图像,Adobe也发布了AI工具Firefly。也是在3月,MidJourney V5发布,生成质量更高,而且支持自然语言的描述输入,使得AI绘画的门槛进一步降低。阿里巴巴于7月推出了新的绘画AI“通义万相”。科大讯飞、商汤、华为等人工智能企业也陆续推出文生图大模型产品,国内呈现“百模大战”的竞争格局。
AI绘画的技术突破式发展依赖以下3个技术的积累和突破::
1)在生成式模型方面,扩散模型的提出使得图像生成技术在基础理论上取得了突破。扩散模型(Diffusion Models)相比生成对抗网络(GAN)和变分自编码器(VAE),具有训练更加稳定,采样过程可控,生成的样本质量更好等优点。
2)在图文对齐模型上,OpenAI的CLIP模型的提出为文本和图像两个模态构建了桥梁,奠定了文本生成图片的技术基座。
3)VQGAN,VQVAE这类视觉量化生成模型,可以将图像压缩到量化的隐空间,从而为高效的隐空间扩散模型训练提供了基础。
此外,可以通过微调开源的Stable Diffusion模型来开发定制化的AI绘画模型,这使得AI绘画模型出现了百花齐放的现象。同时,AI绘画的技术也通过引入更多的其他信息辅助生成想要的图片,使得结果更加可控。例如近期的ControlNet,通过引入另外一个图片作为条件信息,控制文本生成的图片的风格,进一步提升了可用性。
文生图在多个行业上具有广泛的应用前景,例如在广告行业,AI制作宣传海报;在设计行业,AI辅助艺术创作、服装设计等;在电商行业,有虚拟模特、虚拟试衣等应用场景。另外,文生图在游戏和漫画等行业的应用也会加速内容制作的速度。

科普 | AI生成图与电影画面傻傻分不清?揭秘AI绘画成功背后的技术支持


语言大模型、视觉大模型等通用大模型就像一个高中生,具有了基础的逻辑、认知、知识处理等通用能力;随着行业、产业对智能化需求的升级,不少领域已经开始对通用大模型这位“高中生”开展进一步的专业训练,让其成为行业领域的专家,提供专业领域的咨询、服务、工作的行业大模型。相较于通用大模型,行业大模型具有定制化、易部署、可微调、强安全等特点,能够有效适用于具体应用场景,更准确解决专业领域问题,提升行业效能。目前,部分行业大模型已经在电力、交通、金融、能源、民生服务、互联网等行业的智能化中崭露头角。
例如,智能办公提效需求强烈,也是AI大模型赋能优先级最高的场景之一。以企业协同工具钉钉为例,2023年4月正式接入通义千问大模型后,群聊、文档、视频会议及应用开发的智能化场景作为首发,通过输入“/”魔法棒可以唤起10余项AI能力,智能化程度显著提升,减少了人工重复操作成本,升级成为智能协同办公平台+智能应用开发平台。

科普 | AI生成图与电影画面傻傻分不清?揭秘AI绘画成功背后的技术支持

大模型在医疗领域有广泛的应用,在患教助手、问诊在线值班医生、医疗随访、临床辅助决策和过程质控、影像助手、临床科研助理、药物研发数据洞察、医疗保险助手等场景都可以发挥巨大作用。阿里健康基于以上场景,致力于研发“先进且可靠”的垂直领域大模型,通过使用万级的书籍文献,并结合专家经验,通过专家审核,构建了十万级疾病词条和百万级医患问答、百万级别医学术语集、全病种疾病及合理用药知识图谱,在各类平台及各级医疗机构的信息集成、专业语言理解及归纳总结等方面实现了突破,目前已达到一对一个性化咨询服务、提升愈后跟踪性研究效率等成效。科普 | AI生成图与电影画面傻傻分不清?揭秘AI绘画成功背后的技术支持
上述内容来自于《生成式人工智能治理与实践白皮书》,更多精彩分享,请点击👇科普 | AI生成图与电影画面傻傻分不清?揭秘AI绘画成功背后的技术支持


💗AAIG给大家拜年咯
📌往期推荐
📖2023生成式人工智能治理系列丛书生成式人工智能的发展以及担忧|生成式人工智能的治理愿景和框架...👉点击查收全文链接
🌟2022人工智能治理系列丛书 精华大图集锦版 | 如何维护电商平台信息真实和竞争公平…👉点击查收白皮书全书连载
🔥《追AI的人》系列直播教你掌握互联网的“流量密码”  | 如何避免ChatGPT被滥用👉点击查收过往34期直播的全部文字回放
🎈算法治理制度》系列丛书内容和电商领域推荐算法的应用与治理差异“大数据杀熟” 的背后👉点击阅读更多算法治理干货
📺 AI治理科普短视频流量为王的时代,教你如何“破圈”创作 3分钟Get多模态是什么? 信息茧房和马太效应是什么👉点击观看往期24期精彩视频

👇AAIG课代表,获取最新动态就找她科普 | AI生成图与电影画面傻傻分不清?揭秘AI绘画成功背后的技术支持

 关注公众号发现更多干货❤️

科普 | AI生成图与电影画面傻傻分不清?揭秘AI绘画成功背后的技术支持
科普 | AI生成图与电影画面傻傻分不清?揭秘AI绘画成功背后的技术支持科普 | AI生成图与电影画面傻傻分不清?揭秘AI绘画成功背后的技术支持有启发点在看喔👇科普 | AI生成图与电影画面傻傻分不清?揭秘AI绘画成功背后的技术支持

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 0
评论(没有评论)

文心AIGC

2024 年 2 月
 1234
567891011
12131415161718
19202122232425
26272829  
文心AIGC
文心AIGC
人工智能ChatGPT,AIGC指利用人工智能技术来生成内容,其中包括文字、语音、代码、图像、视频、机器人动作等等。被认为是继PGC、UGC之后的新型内容创作方式。AIGC作为元宇宙的新方向,近几年迭代速度呈现指数级爆发,谷歌、Meta、百度等平台型巨头持续布局
文章搜索
热门文章
潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026

潞晨尤洋:日常办公没必要上私有模型,这三类企业才需要 | MEET2026 Jay 2025-12-22 09...
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行

“昆山杯”第二十七届清华大学创业大赛决赛举行 一水 2025-12-22 17:04:24 来源:量子位 本届...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...
最新评论
ufabet ufabet มีเกมให้เลือกเล่นมากมาย: เกมเดิมพันหลากหลาย ครบทุกค่ายดัง
tornado crypto mixer tornado crypto mixer Discover the power of privacy with TornadoCash! Learn how this decentralized mixer ensures your transactions remain confidential.
ดูบอลสด ดูบอลสด Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Pretty! This has been a really wonderful post. Many thanks for providing these details.
ดูบอลสด ดูบอลสด Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
Obrazy Sztuka Nowoczesna Obrazy Sztuka Nowoczesna Thank you for this wonderful contribution to the topic. Your ability to explain complex ideas simply is admirable.
ufabet ufabet Hi there to all, for the reason that I am genuinely keen of reading this website’s post to be updated on a regular basis. It carries pleasant stuff.
ufabet ufabet You’re so awesome! I don’t believe I have read a single thing like that before. So great to find someone with some original thoughts on this topic. Really.. thank you for starting this up. This website is something that is needed on the internet, someone with a little originality!
ufabet ufabet Very well presented. Every quote was awesome and thanks for sharing the content. Keep sharing and keep motivating others.
热评文章
反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线

反超Nano Banana!OpenAI旗舰图像生成模型上线 Jay 2025-12-17 10:25:43 ...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离不开它

英伟达护城河又宽了!低调收购开源算力调度王牌工具,全球过半顶级超算在用,Thinking Machines也离...
是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛

是个公司都在用AI Agent,但大家真的用明白了吗| MEET2026圆桌论坛 一水 2025-12-17 ...
人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态

人车家全生态持续破圈,小米宣布对开发者开放小米MiMo大模型、CarIoT硬件生态 量子位的朋友们 2025-...