约 1520 字大约 5 分钟...


成功部署 Stable Diffusion(参考 《AI 绘画实战指南 Vol.1》)后,真正的挑战在于如何从“随机抽卡”转向“可控创作”。这取决于三点:理解模型差异、掌握插件控制、建立稳定的工作流。

模型与插件构成了 Stable Diffusion 的核心生态。

本文重点解决三个问题:

  1. 模型获取与管理。
  2. WebUI 原生潜能挖掘。
  3. 关键插件的高效应用。

模型管理:Civitai 与 LoRA

Civitai(C 站) 汇集了全球主流的 Stable Diffusion 模型,涵盖二次元、写实、人像、插画及概念设计等多个方向。

下载模型后,需将其存入 WebUI 指定目录方可生效。

大模型(Checkpoints / Base Models)

决定画面的整体风格与基础能力。

  • 格式.safetensors / .ckpt
  • 体积:2 GB – 6 GB
  • 路径models/Stable-diffusion
  • 提示:切换模型时,建议同步调整提示词结构、采样器与 CFG 值,避免沿用旧参数导致效果不佳。

微调模型(LoRA)

在不改变大模型基底的前提下,注入特定人物、画风、服饰或概念(如机甲、水墨风)。

  • 格式.safetensors
  • 体积:10 MB – 300 MB
  • 路径models/Lora
  • 用法:在提示词中调用,如 <lora:mecha_style:0.8>

VAE(Variational Autoencoder)

相当于“调色滤镜与解码器”,用于修正色彩饱和度与灰度问题。

  • 路径models/VAE

可通过 SettingsUser interfaceQuicksettings list 添加 sd_vae,以便在顶部栏快速切换。

提示:Docker 版部署路径通常位于 data 目录下,如 stable-diffusion-webui-docker/data/StableDiffusion,需据实调整。


原生进阶功能

在引入插件前,WebUI 自带的两项功能足以应对基础测试需求。

Prompt Matrix

通过 | 分隔条件,一次性生成多组对比图,适合快速测试风格或参数变量。

  • 语法key1|key2|key3
  • 效果:WebUI 会生成所有可能的组合。
    • 例如 a robot in [cyberpunk|steampunk] style 会分别生成赛博朋克和蒸汽朋克风格的机器人。
    • 高级用法:@(moba|rpg|rts) character 会生成 MOBA、RPG、RTS 三种游戏角色的图。

上方视频的调教词为 A mecha robot in World War II in realistic style|Shoot with another mecha robot|Bombed by planes|Missile drop|broken|Repaired|cinematic lighting| 符号后的场景条件将进行排列组合,视频样例有 6 个场景条件生成 64 张图。

另外,我们可以指定场景条件位置,比如 @(moba|rpg|rts) character (2d|3d) model 表示 (moba|rpg|rts 三选一) character (2d|3d 二选一) model,也就是会生成 3*2 张图片。开头的 @ 是触发指定场景条件位置的符号,不能省略。

Textual Inversion

Textual Inversion(文本倒置/嵌入)是一种轻量级的模型微调方式。

  • 原理:不需要重新训练整个大模型,而是“教会”模型一个新的单词(Token),这个单词代表特定的风格、人物或概念。
  • 优势:文件极小(通常几 KB 到几百 KB),可以叠加使用。
  • 场景
    • 风格复刻:比如 style-midjourney,可以让 SD 1.5 模仿 MJ 的画风。
    • 人物固定:训练一个 my-cat 的 Embedding,每次输入 my-cat 就能画出你家猫。
    • 负面嵌入(Negative Embeddings):这是最常用的用法。比如 EasyNegativebad-hands-5,把它们放入负面提示词,可以大幅减少崩坏概率。

必备插件体系

插件生态拓展了 Stable Diffusion 的能力边界,覆盖控图、动画、换脸、高清修复及效率工具等维度。

安装路径ExtensionsInstall from URL → 输入 Git 地址 → InstallApply and restart UI

1. ControlNet:精准控图

ControlNet 彻底改变了 AI 绘画的随机性,实现可控生成。

  • OpenPose:锁定肢体动作与手势。
  • Canny / Lineart:提取线稿边缘进行重绘上色。
  • Depth:还原空间深度结构。
  • Tile / Blur:增强细节与高清修复。

高清修复建议勾选 Pixel Perfect,配合稳定采样器(如 DPM++ 3M SDE Karras),步数设为 40 – 60。

模型下载HuggingFace.pth 文件),存入 models/ControlNet

2. 视频与动画

  • AnimateDiff:生成流畅动画的首选方案,支持 GIF/MP4 输出。显存建议 8 GB 起。
  • Deforum:专注视觉实验,通过数学公式控制运镜与画面形变,适合抽象艺术或音乐可视化。
  • SadTalker:合成人像说话视频,口型与头部动作自动匹配音频。

3. InstantID:单图换脸

InstantID 基于 SDXL,无需训练即可实现高保真面部特征迁移。相比需大量样本训练的 EasyPhoto,它即插即用,但对显存要求较高(建议 12 GB+)。

4. 高清与后期

  • Tiled Diffusion:通过分块绘制突破显存瓶颈,生成超高分辨率图像。
  • Rembg:集成于 Extras 标签页,提供一键智能去背(推荐 isnet-general-use 模型)。

5. 效率工具

  • img-prompt:结构化提示词管理工具,支持中英文模板拆解与复用,尤其适应动画生成的高复杂度 Prompt 需求。
  • Civitai Helper:自动匹配本地模型封面与信息。
  • Prompt-all-in-one:集成翻译、历史记录与收藏功能。
  • Lobe Theme:现代化 UI 主题,提升交互体验。

结语

掌握模型差异、善用 LoRA 补强风格、利用 ControlNet 约束构图,Stable Diffusion 便不仅是抽卡工具,而是可设计、可复现的创作系统。

不必盲目追逐新模型,选定一套顺手工具,沉淀专属的模型库、参数模板与 Prompt 资产,才是进阶关键。