Stable Diffusion 中文介绍、本地部署与使用指南

📅 更新时间：2026-05-24 📂 分类：AI 绘画 🏢 Stability AI

Stable Diffusion 是 Stability AI 推出的开源 AI 绘画模型家族，从 SD 1.5、SDXL 到 SD 3 与社区主流的 Flux，构成了当前最庞大的开源图像生成生态。SD 完全开源、支持本地部署、可微调、可叠加 LoRA 与 ControlNet，是开发者与专业创作者最常用的 AI 绘画方案。本页面由 AIBook 独立整理，非 Stability AI 官方页面。

Stable Diffusion 是什么？

Stable Diffusion（简称 SD）是 Stability AI 在 2022 年 8 月开源发布的潜在扩散模型（Latent Diffusion Model），它的出现直接把 AI 绘画从「闭源云端服务」推向了「人人可以本地跑」的开源时代。和需要付费订阅的 Midjourney、DALL·E 不同，SD 的模型权重完全开放，任何人都可以下载、修改、再训练、二次发布。

截至 2026 年，Stable Diffusion 已经发展为一整个模型家族：早期出圈的 SD 1.5 至今仍是社区 LoRA 数量最多的版本；2023 年推出的 SDXL 把原生分辨率提升到 1024×1024；2024 年的 SD 3 改用 MMDiT 架构，在文字渲染、解剖结构、多主体构图上明显进步；同时期黑森林实验室开源的 Flux 系列被社区视为「广义 SD 生态」的一员，常被一并讨论。

SD 真正的价值不只是「免费」，而是它催生了一个由 WebUI、ComfyUI、Forge、Civitai、HuggingFace、LoRA、ControlNet、IP-Adapter 等组成的庞大生态。对开发者、独立画师、视觉工作室来说，SD 是当前唯一可以做到「完全控制、完全私有、完全自定义」的主流 AI 绘画方案。

Stable Diffusion 价格与运行成本详解

SD 是开源工具，模型本身永久免费，但「能不能跑起来」取决于你选哪种运行方式。下面把 2026 年常见的几种方案做一次完整成本对比，方便你判断自己适合哪一档。

方式一：本地部署（完全免费）

下载 WebUI 或 ComfyUI 到自己的电脑，模型与所有插件均可免费使用，不产生任何订阅费。前提是你拥有一块合适的显卡：

SD 1.5：NVIDIA 6GB 显存起步（RTX 3060 即可）
SDXL：建议 8-12GB 显存（RTX 4070 / 4080）
SD 3 / Flux：建议 16GB 显存以上（RTX 4090、RTX 5080）
Apple Silicon（M2/M3/M4）也能跑，但速度比同价位 N 卡慢

对中重度用户来说，本地部署是综合成本最低的方案——硬件一次性投入，之后跑多少张图都是电费。

方式二：DreamStudio 官方付费版

Stability AI 自家网页版 DreamStudio 按生成积分计费，无需自己部署，开箱即用。适合只想偶尔出几张图、又不想折腾环境的用户。但生态封闭，社区 LoRA、ControlNet 等高级用法支持有限。

方式三：第三方云端服务

国内有 LiblibAI、TusiArt（吐司）、哩布哩布、SeaArt 等网页版 SD 服务，免费额度 + 会员订阅模式，自带模型市场，不需要装环境、不需要显卡。海外则有 RunDiffusion、ThinkDiffusion、ComfyUI Cloud 等。这类服务适合「想用 SD 生态但不想本地部署」的中文用户。

方式四：云 GPU 按小时租用

RunPod、Vast.ai、AutoDL、矩池云等平台可以按小时租 GPU 运行自己的 SD 环境。常见价格区间是每小时几元到十几元人民币不等，适合短期高强度训练 LoRA 或批量出图的场景。优势是显卡随选随用，缺点是每次开机都要配置环境。

怎么选？

简化建议：偶尔玩玩 → 国内云服务网页版；日常出图 → 自己装 WebUI / ComfyUI；批量商用 / 训练模型 → 本地高配显卡或云 GPU；企业内部部署 → 本地服务器 + 私有化工作流。SD 的开源属性决定了：用得越深，省得越多。

Stable Diffusion 怎么用？从入门到进阶的完整路径

SD 比 Midjourney 学习曲线更陡，但回报也更大——你能完成的事情远超「在 Discord 输入一行 Prompt」。下面把入门到进阶的关键步骤梳理一遍。

1. 选择并下载基础模型

从 Civitai 或 HuggingFace 下载模型权重（扩展名通常是 .safetensors），放到对应文件夹里。Civitai 上的模型一般分为三类：写实风（如 Realistic Vision、Juggernaut XL）、二次元（如 AnythingXL、Animagine）、通用美学（如 DreamShaper、Pony Diffusion）。选模型时先看示例图风格，再看下载量和评论。

2. 写好 Prompt 的结构

SD 的 Prompt 不是越长越好，但要有结构。一个常用模板是：画质词 + 主体 + 外观细节 + 场景 + 镜头 / 光线 + 风格。例如：

masterpiece, best quality, 1girl, long silver hair, blue eyes, white dress, cherry blossom park, soft sunlight, depth of field, (cinematic lighting:1.2), ghibli style

括号 (xxx:1.2) 表示提升权重，数字越大该词越被强调，一般控制在 0.8-1.4 之间。

3. 采样器、步数与 CFG

采样器（Sampler）：Euler a 通用、DPM++ 2M Karras 高质量、UniPC 速度快
步数（Steps）：20-30 步够用，超过 40 收益急剧递减
CFG Scale：7-9 平衡画质与 Prompt 服从度，过高会失真
分辨率：SD 1.5 推荐 512×768，SDXL/SD 3 直接出 1024×1536

4. 善用负面 Prompt

SD 比闭源模型更依赖负面词来排除瑕疵，一份基础负面词模板：

lowres, bad anatomy, bad hands, missing fingers, extra digits, blurry, watermark, text, signature, jpeg artifacts

5. 叠加 LoRA 进阶玩法

下载 LoRA 后放到 models/Lora/ 文件夹，在 Prompt 中通过 <lora:模型名:0.8> 调用，权重 0.6-0.9 通常最自然。一张图可叠加多个 LoRA（如「风格 + 角色 + 服装」组合），这是 SD 真正拉开和闭源工具差距的地方。

6. ControlNet 精准控图

当你需要严格控制人物姿势、画面构图、线稿上色、室内透视时，ControlNet 是不可替代的工具。常用预处理器：OpenPose（姿态）、Canny（线稿）、Depth（深度）、Lineart（线条）、Tile（高清放大）。商用产品图、漫画分镜、建筑设计等场景几乎离不开它。

Stable Diffusion 的 6 大典型应用场景

很多人以为 SD 只是「自己在家画二次元」，但真正深入用过 SD 的人都知道：它在专业场景的天花板远高于闭源工具。下面 6 个场景，是 2026 年中文 SD 用户最高频的方向。

1. 商业插画与广告视觉

这是 SD 最有竞争力的场景之一。商业项目对「同一角色多套姿势」「严格保留品牌色」「修改局部不破坏整体」的需求，闭源工具几乎做不到，但 SD 通过 LoRA + ControlNet + Inpaint 可以做到接近设计师手工的精度。一些独立插画师靠 SD 做电商主图、小红书配图、公众号封面，单月稿费过万的并不少见。

关键技巧是建立自己的私人 LoRA 库：把自己常用的画风、角色、品牌色训练成 LoRA，之后所有项目都基于这套素材出图。这是「AI 绘画工业化」的核心姿势。

2. 二次元角色与同人创作

SD 在二次元社区的渗透率几乎是 100%。无论是动漫风、赛璐璐、厚涂、像素风，Civitai 和 Liblib 上都有成千上万个对应风格的 LoRA。同人创作者用 SD 做角色立绘、场景插图、表情包，效率比传统手绘提升 5-10 倍。

实际使用中，二次元出图的核心不在 Prompt 而在模型选型——选错基础模型，怎么调 Prompt 都救不回来。Animagine XL、Pony Diffusion XL、NoobAI 是当前社区主流选择。

3. 训练个人 / 品牌专属模型

这是 SD 的杀手锏功能。用 20-40 张图片，配合 Kohya_SS 或 OneTrainer 训练工具，2-6 小时就能得到一个属于你自己的 LoRA——可以是你自己的脸、你画的画风、你的产品外观、你公司的吉祥物。

电商商家用这个功能批量生成模特图（换衣服、换姿势、换场景），节省每月几万的拍摄费用；游戏工作室用来快速产出概念美术；自媒体用来批量生成「同一虚拟主角」的不同场景图。这是 Midjourney、DALL·E 完全无法替代的能力。

4. 产品图修复与电商图生成

SD 的 Inpaint（局部重绘）和 Outpaint（向外扩展）功能在电商场景非常实用：把产品图背景换成不同场景、把模特衣服换色、把白底产品图扩展成全景。配合 ControlNet Tile 还能做到 4K-8K 的细节增强。

5. 视觉设计辅助与概念探索

建筑师、室内设计师、UI 设计师把 SD 当作「快速概念可视化」工具：把线稿丢进 ControlNet，叠加风格 LoRA，几秒钟出一张效果图候选；做配色探索时一次性出 20 张备选方案，再人工筛选。这种工作流极大压缩了概念阶段的时间成本。

6. 短视频与漫画工作流

结合 AnimateDiff、SVD（Stable Video Diffusion）、Deforum 等动画扩展，SD 可以输出短视频片段、连续漫画分镜、动态壁纸。一些独立漫画作者用 SD + ControlNet 把分镜稿一键转成成品稿，工作量从原本一天一页提升到一天 5-10 页。

Stable Diffusion 适合哪些用户？

SD 是少数几款「下限低、上限极高」的 AI 工具，但它确实有学习成本。下面 5 类典型用户的画像，可以帮你判断 SD 是不是你的菜。

独立插画师 / 自由设计师

SD 是这个群体当之无愧的首选。商业项目的「可控性」要求闭源工具基本满足不了——客户经常要求「同一个角色换 5 套衣服」「保留品牌色调」「不能动眼睛只改头发」，这些都是 SD + ControlNet + Inpaint 的强项。一台 RTX 4070 以上的电脑就能撑起一个独立设计工作室的产能。

开发者 / 技术爱好者

SD 对开发者极其友好：开源、有完整 API、ComfyUI 工作流可以代码化、HuggingFace Diffusers 库可以嵌入任何 Python 项目。想做 AI 绘画 SaaS、Discord Bot、插件工具、批处理脚本，SD 几乎是唯一可选方案。商业项目对 Midjourney 没有 API，对 DALL·E 限制重重，SD 则没有这些枷锁。

电商商家 / 内容运营

需要每天大量产出商品图、配图、模特图、广告 banner 的运营人员，SD 的批量出图能力性价比无敌。一次训练一个产品 LoRA，之后批量出图几乎零成本。相比之下 Midjourney 每月几百块的订阅在大量产能场景反而更贵。

游戏 / 影视 / 动漫工作室

SD 在概念美术、场景探索、角色立绘、动态分镜等环节已经成为很多工作室的标配。能本地部署、能保密、能定制训练是这些行业选 SD 不选闭源工具的核心原因——项目素材不能上传到第三方云端，模型必须能根据 IP 风格定制。

研究者 / 学生

AIGC、计算机视觉、深度学习方向的研究者把 SD 当作开放实验平台。修改 UNet、替换 VAE、训练自己的 ControlNet、研究新型采样器，都可以基于 SD 代码库做。这是闭源模型完全无法提供的科研价值。

哪类人未必适合？

反过来说，只想「输入一句话出一张漂亮图、不想配环境、不想买显卡」的纯小白，SD 的学习成本可能不划算——这种场景更适合 Midjourney、DALL·E 这类开箱即用的工具，或者直接用国内的 SD 云服务网页版。等真正有定制化需求时，再回头学 SD 也不迟。

Stable Diffusion vs 竞品对比

SD vs Midjourney

Midjourney 是闭源订阅制（约 $10-60/月），出图美学最稳定、上手最快、几乎无需调参；SD 完全开源免费、可本地部署、可训练专属 LoRA、可用 ControlNet 精确控图，但学习曲线陡。简化结论：追求美学和效率选 MJ，追求可控性和私有化选 SD。详细对比见 Midjourney vs Stable Diffusion 完整对比。

SD vs DALL·E 3

DALL·E 3 集成在 ChatGPT 中，胜在「Prompt 理解准确、文字渲染好、对话式生成」；SD 在画风多样性、可控性、生态丰富度上完胜，但没有 DALL·E 那种「自然语言一句话出准确画面」的便利性。

SD vs Flux

Flux 是黑森林实验室（前 SD 核心团队成员创立）2024 年开源的新一代扩散模型，在解剖、文字、细节上明显优于 SD 3，已经成为社区高端创作的事实标准。Flux 也属于「广义 SD 生态」，能用同一套 WebUI / ComfyUI 工作流运行，很多创作者会同时使用 SDXL + Flux 互相补足。

SD vs 国产闭源工具

国内的「即梦」「可灵」「文心一格」等闭源工具上手简单、中文 Prompt 友好，但同样不能本地部署、不能训练专属模型、不能精细控图。对于商用和工作室场景，SD 仍然是不可替代的工具。

关于本介绍页

本页面为 Stable Diffusion 中文介绍页，由 AIBook 独立编辑整理，旨在为中文用户提供 Stable Diffusion 的功能介绍、部署方式、生态工具与使用技巧参考。

Stable Diffusion 是 Stability AI Ltd. 开发的开源产品，模型权重在 HuggingFace 等平台公开发布。「Stable Diffusion」、「Stability AI」、「DreamStudio」等为 Stability AI 注册商标。访问 Stability AI 官方页面请前往 stability.ai ↗。本站为独立的 AI 工具信息整合平台，与 Stability AI 不存在任何关联关系。

本页面内容由 AI 辅助生成并经人工编辑校对。工具版本、生态组件、部署方案等信息可能随官方与社区更新而变化，请以 Stability AI 官方公告与 HuggingFace 模型卡为准。如发现内容错误或需要更新，请联系 abuse@aibook1.com。

常见问题 FAQ

Stable Diffusion 免费吗？

Stable Diffusion 是完全开源的模型，权重、代码、WebUI、ComfyUI、社区 LoRA 都可以免费下载使用。唯一的成本是运行环境——你要么用一块 NVIDIA 显卡本地部署（一次性硬件投入），要么按需租用云 GPU，要么使用 LiblibAI、DreamStudio 等第三方网页版（一般有免费额度 + 会员模式）。

Stable Diffusion 适合新手吗？

看你想做什么。如果只想偶尔出几张漂亮图，国内 SD 云服务网页版（如 LiblibAI、TusiArt）或者直接用 Midjourney 上手都更快。如果想长期玩，建议从 Fooocus 或 AUTOMATIC1111 WebUI 入门，前者几乎零配置、后者文档教程最全。等熟悉了 Prompt、LoRA、ControlNet 之后，再升级到 ComfyUI 玩复杂工作流。

Stable Diffusion 需要什么硬件？

最低要求是 NVIDIA 6GB 显存（如 RTX 3060），能跑 SD 1.5；SDXL 建议 8-12GB 显存（RTX 4070 起步）；SD 3 / Flux 这类新模型推荐 16GB 显存以上（RTX 4090、RTX 5080）。Apple Silicon（M2/M3/M4）也可以跑，但速度比同价位 N 卡慢一截。完全没显卡也可以用云 GPU 或网页版云服务。

什么是 LoRA？怎么用？

LoRA（Low-Rank Adaptation）是 SD 的小型微调模型，体积通常 50-400MB，可以给基础模型叠加特定风格、角色、服装、姿态。从 Civitai、Liblib、HuggingFace 上下载 LoRA 文件（.safetensors）放到 models/Lora/ 文件夹，在 Prompt 中通过 <lora:模型名:0.8> 调用，权重一般在 0.6-0.9 之间最自然。一张图可以叠加多个 LoRA 形成「风格 + 角色 + 服装」组合。

什么是 ControlNet？为什么很多人推荐？

ControlNet 是 SD 生态里最重要的控图工具，能让你用线稿、姿态骨架、深度图、边缘图等「约束图」精确控制画面构图。比如想让人物保持某个特定姿势、想让产品图严格按线稿出图、想给黑白线稿上色，ControlNet 都能做到接近设计师精度的效果。这也是 SD 在商业插画、电商图、产品设计等场景碾压闭源工具的核心原因。

SD 1.5、SDXL、SD 3、Flux 怎么选？

SD 1.5（2022）是 LoRA 数量最多的版本，二次元和风格化场景仍然好用；SDXL（2023）原生 1024×1024 分辨率，画质更细腻、生态成熟，是 2026 年综合性价比最高的选择；SD 3（2024）采用 MMDiT 架构，文字渲染和多主体场景更强；Flux（黑森林实验室开源）在解剖、文字、写实细节上当前最强，被视为高端创作首选。多数用户从 SDXL 开始，进阶后再补 Flux。

Stable Diffusion 输出的图片版权属于谁？可以商用吗？

Stability AI 的官方模型权重采用 CreativeML Open RAIL-M 等开放许可，明确允许商业使用。社区模型和 LoRA 的许可各不相同（Civitai 模型页面会标注），下载前请仔细看作者声明，部分模型禁止商用或要求标注来源。生成图片本身在多数司法管辖区允许商用，但需注意：1）训练数据中可能涉及第三方版权，敏感场景（明星脸、知名 IP）需自行规避；2）中国法院普遍认为完全 AI 生成内容的著作权门槛较高；3）涉及人像、品牌的商业项目应做人工二次创作或法务确认。

Stable Diffusion 和 Midjourney / DALL·E 选哪个？

看场景。只想出漂亮图、不想折腾环境、可以接受订阅费 → Midjourney（美学最稳、上手最快）；ChatGPT 用户、想用对话式生成图 → DALL·E 3（集成在 ChatGPT 里）；需要可控性、隐私性、批量化、训练专属模型 → Stable Diffusion（开源免费、生态最大、可本地部署）。详细对比见 Midjourney vs Stable Diffusion 完整对比。