Stable Diffusion 最流行的用途之一是生成逼真的人物。它们看起来就像从相机中拍摄的一样真实。在这篇文章中,你将学习生成照片式头像的方法,了解用于生成真实人物的prompt、model和upscalers。
Software
我们将使用 AUTOMATIC1111 Stable Diffusion GUI 生成逼真的人物。可以在 Windows、Mac 或 Google Colab 上使用此 GUI。
Prompt
在本节中,我们将学习如何逐步构建逼真的照片风格的高质量提示。
让我们从一个坐在餐厅外面的女人的简单提示开始。我们使用 v1.5 基础模型。
Prompt:
photo of young woman, highlight hair, sitting outside restaurant, wearing dress
Model: Stable Diffusion v1.5
Sampling method: DPM++ 2M Karras
Sampling steps: 20
CFG Scale: 7
Size: 512×768
好吧,效果并没有那么好。
Negative prompt
让我们添加一个否定提示。这个否定提示非常简单。它旨在产生更好的结构并避开非现实风格。
Negative Prompt:
disfigured, ugly, bad, immature, cartoon, anime, 3d, painting, b&w
加入Negative Prompt让女性看起来更好,上半身看起来很不错。
但下半身的解剖结构仍然存在问题。还有很大的改进空间。
灯光关键词
摄影师的很大一部分工作是设置良好的灯光。一张好照片有有趣的灯光。这同样适用于Stable Diffusion。让我们添加一些灯光关键字和一个控制视角的关键字。
Prompt:
photo of young woman, highlight hair, sitting outside restaurant, wearing dress, rim lighting, studio lighting, looking at the camera
Negative prompt:
disfigured, ugly, bad, immature, cartoon, anime, 3d, painting, b&w
这些照片立马好看了起来。你可能会注意到身体结构不太对。不用担心。有很多方法可以修复它。我会在文章后面告诉你。
相机关键词
dslr、ultra quality、8K、UHD 等关键字可以提高图像质量。
Prompt:
photo of young woman, highlight hair, sitting outside restaurant, wearing dress, rim lighting, studio lighting, looking at the camera, dslr, ultra quality, sharp focus, tack sharp, dof, film grain, Fujifilm XT3, crystal clear, 8K UHD
Negative prompt:
disfigured, ugly, bad, immature, cartoon, anime, 3d, painting, b&w
我不能说它们肯定更好,但把这些关键词包括在内当然也没什么坏处……
面部细节
最后,一些关键词可以用作修饰眼睛和皮肤。这些关键词旨在呈现更逼真的面部。
Prompt:
photo of young woman, highlight hair, sitting outside restaurant, wearing dress, rim lighting, studio lighting, looking at the camera, dslr, ultra quality, sharp focus, tack sharp, dof, film grain, Fujifilm XT3, crystal clear, 8K UHD, highly detailed glossy eyes, high detailed skin, skin pores
Negative prompt:
disfigured, ugly, bad, immature, cartoon, anime, 3d, painting, b&w
你对基础模型能够生成这些高质量的逼真图像感到惊讶吗?我们甚至还没有使用特殊的逼真模型。如何用特定模型它只会变得更好。
控制脸部
混合两张脸
你想在多个图像中生成相同的外观吗?一个技巧是利用名人。他们的容貌是他们身体中最容易辨认的部分。
但我们通常不想用他们的脸。他们太有辨识度了。你想要一张具有特定外观的新面孔。
诀窍是使用prompt scheduling来混合两个面孔。 语法是
[person 1: person2: factor]
factor是一个0到1之间的数字,表示关键词从人物1切换到人物2时占总步数的百分比,例如[Ana de Armas:Emma Watson:0.5]有20步表示提示使用第 1-10 步使用 Ana de Armas,第 11-20 步使用 Emma Watson。
你可以简单地将其放入提示中,如下所示。
Prompt:
photo of young woman, [Ana de Armas:Emma Watson:0.5], highlight hair, sitting outside restaurant, wearing dress, rim lighting, studio lighting, looking at the camera, dslr, ultra quality, sharp focus, tack sharp, dof, film grain, Fujifilm XT3, crystal clear, 8K UHD, highly detailed glossy eyes, high detailed skin, skin pores
Negative prompt:
disfigured, ugly, bad, immature, cartoon, anime, 3d, painting, b&w
通过仔细调整系数,你可以调节两张脸的比例。
混合一张脸
你是否注意到使用两个名称时背景和构图发生了巨大变化?这就是联想效应。女演员的照片通常与某些场景相关联,例如颁奖典礼。
整体构图由第一个关键字决定的,因为采样器在前几个步骤中降噪最多。
利用这个想法,我们仍然可以在前几步使用 woman ,然后只换一个名人的名字。这在保留构图的同时提供了将普通面孔与名人融合在一起的效果。
prompt:
photo of young [woman:Ana de Armas:0.4], highlight hair, sitting outside restaurant, wearing dress, rim lighting, studio lighting, looking at the camera, dslr, ultra quality, sharp focus, tack sharp, dof, film grain, Fujifilm XT3, crystal clear, 8K UHD, highly detailed glossy eyes, high detailed skin, skin pores
Negative prompt:
disfigured, ugly, bad, immature, cartoon, anime, 3d, painting, b&w
使用这种技术,我们可以在一定程度上控制面部的同时保持构图。
面部修复
修复是一种既能保持构图又能完全控制面部的技术。
在 txt2img 选项卡中生成图像后,单击Send to inpainting。
在修复画布中,绘制覆盖面部的蒙版。
现在修改提示以包括两个面的混合。例如。
photo of young [Emma Watson: Ana de Armas: 0.4], highlight hair, sitting outside restaurant, wearing dress, rim lighting, studio lighting, looking at the camera, dslr, ultra quality, sharp focus, tack sharp, dof, film grain, Fujifilm XT3, crystal clear, 8K UHD, highly detailed glossy eyes, high detailed skin, skin pores
将去噪强度设置为 0.75,将批量大小设置为 8。点击“生成”并挑选出效果最好的一个。
修复缺陷
让我们来看一个例子。下图看起来不错,只是手臂变形了。
要修复它,首先单击Send to inpainting以将图像和参数发送到 img2img 选项卡的修复部分。
在 img2img 选项卡的修复画布中,在有问题的区域上绘制蒙版。
将种子设置为 -1(随机),去噪强度设置为 1,批量大小设置为 8。
你可以尝试修复区域设置——整张图片或仅蒙版。
点击生成,你可能会得到一些不好的图片。如果没有满意的,请再次按生成。
你可以使用修复迭代地优化图像。当你看到图像朝正确的方向发展时,直接点击Send to inpaint。
模型
到目前为止,我们只使用了 Stable Diffusion v1.5 基础模型来生成逼真的人物。你知道有专门训练来生成逼真的图像的模型吗?
当你使用它们时,你会发现新大陆。
下面介绍一些常用的模型。
F222
F222 生成穿着漂亮衣服的逼真人物。遗憾的是,该模型不再继续开发。
Hassan blend 1.4
Realistic Vision v2.0
Realistic Vision v2 是用于生成照片风格图像的全能模型。除了写实人物,动物和场景也不错。
Chillout Mix
Chillout Mix 是 F222 的亚洲版本。它经过训练可以生成照片风格的亚洲人。
Dreamlike Photoreal
Dreamlike Photoreal 是一个全能的照片风格模型。肖像图像往往有点饱和。
为了让大家直接对比逼真的模型,我使用相同的prompt、negative prompt和seed,请看对比图:
特写镜头
LoRA, hypernetwork, textual inversion
你可以通过LoRAs, hypernetworks, textual inversions来进一步介入模型。找到它们的最佳地点是 civitai 。
Korean aesthetic
将 Ulzzang-6500 与 Chillout Mix 结合使用可以打造韩国偶像造型。
Darker images
epi_noiseoffset 是一种 LoRA,它可以在稳定扩散中产生比正常情况下更暗的图像。使用黑暗的关键字,如“dark studio”, “night”, “dimly lit”等。
Prompt:
night, (dark studio:1.3) photo of young woman, highlight hair, sitting outside restaurant, wearing dress, rim lighting, studio lighting, looking at the camera, dslr, ultra quality, sharp focus, tack sharp, dof, film grain, Fujifilm XT3, crystal clear, 8K UHD, highly detailed glossy eyes, high detailed skin, skin pores <lora:epiNoiseoffset_v2:1>
Negative prompt:
disfigured, ugly, bad, immature, cartoon, anime, 3d, painting, b&w
下面的图像是用 URPM 模型生成的。
名人 LoRA
有大量粉丝制作的 LoRA 模型向他们喜欢的艺术家致敬。
Alizée Jacotey:
服装
这件汉服 LoRA(应用于 Chillout Mix)非常适合生成漂亮的传统汉服。
控制姿势
ControlNet
ControlNet 已成为控制人体姿势和肖像构图的事实标准。
但是如何获取参考图像呢?一个简单的方法是访问 Unsplash 等免费照片网站。使用 man、woman、stand、sit 等关键字进行搜索。你会找到构图正确的图像。
ControlNet控制两个人
如果没有 ControlNet,几乎不可能控制场景中两个或更多人的构图和姿势。现在,你只需找到一个参考图像,你就可以开始工作了。
SD v1 模型的原始分辨率为 512×512 像素。Upscaler为防止出现重复字符等问题,您应将至少一侧设置为 512 像素。
Upscaler
SD v1 模型的原始分辨率为 512×512 像素。为防止出现重复人物等问题,你应将至少一侧设置为 512 像素。
但是,图像可能太小而无法在以后使用。
你可以使用 upscalers 放大图像,而不必担心变得模糊。它们有能力在放大图像时创建内容来填充细节。
为现实人物使用upscalers的技巧
逼真照片的upscalers的几点注意事项
- 大多数upscalers都会改变图像。
- 使用尽可能少的upscaler,能用一个搞定,就不要用两个。
- 面部修复也一样。全力应用它会引入伪影。把它设置为你可以接受的最少值。
No upscalers with ControlNet
你可以尝试在使用 ControlNet 时生成具有最终分辨率的图像。尝试将图像大小设置为 1200×800。这种情况下你不必使用upscalers就能达到目的。
Image-to-image following upscaling
要消除由upscalers引入的伪影,可以在img2img使用相同的prompt,低去噪强度(例如 0.1 到 0.3)。
这个技巧可以让模型生成与模型风格一致的细节,同时又不会过多地改变图像。缺点是图像会略有改变,具体取决于你使用的去噪强度。
总结
下面是一些要记在大脑里的提示。
- 构建prompt
- 种族 – 非裔美国人、西班牙裔、俄罗斯人、欧洲人……
- 发型 – 长发、短发、发髻、马尾辫、辫子……
- 服装 – 连衣裙、上衣、牛仔裤、夹克。转到你最喜欢的服装店的网站并获取一些关键字提示。
- 活动 – 他或她在做什么
- 环境 – 繁忙的街道、房屋内、海滩上……
- 选择模型
- F222 或 Realistic Vision v2 适合平衡、现实的人。
- Hassan Blend v1.4 或 URPM 以获得更精致的外观。
- Chillout Mix 适合亚洲人。
- SD 1.5 如果你想炫耀你的高超提示技巧……
- 加入 LoRA 、textual inversion or hypernetwork以获取想要的效果。
- 以良好的构图为目标。不要害怕使用多轮修复来修复缺陷或重新生成面孔。
- 将 ControlNet 与原始照片结合使用以获得良好的姿势和构图。
- 对 AI 升级器保持温和。