AI画图工具Stable Diffusion WebUI+封面模型+自学方式分享
04.22新增,此帖原标题为《AI画图工具Stable Diffusion WebUI+模型+tag生成器+必要简要教程合集[182G]》。Stable Diffusion是一个开源程序,故有多种不同大小的版本。此次的版本整合包搭载了启动器,内嵌了使用教程+常见问题,文件包只有12G左右,可按需下载自己需要的模型。
自学方面,本落主要也看此版本作者@秋葉aaaki的视频。模型主要来自于[ 这个网址 ] ,文字教程看[ 这个网址 ],这个网站里还有好多其他的教程。封面需要的模型解压后放在models\Stable-diffusion就可以了。
另还有一个工具,适合电脑比较古早的小伙伴,可以免费生成25张照片。具体 文字教程看[ 这个网址 ]
03.06新增,封面图为本落刚AI出的末世废土三姐妹
关于AI画手不太行,其实已经是比较老的问题, 在Negative Prompt输以下tag基本能解决
extra fingers, mutated hands, poorly drawn hands, poorly drawn face, mutation, deformed, blurry, dehydrated, bad anatomy, bad proportions, extra limbs, cloned face, disfigured, gross proportions, malformed limbs, missing arms, missing legs, extra arms, extra legs, fused fingers, too many fingers, long neck
前段时间发了些AI作图的内容,收到了不小的反馈,摩拳擦掌跃跃欲试的小伙伴可真不少。这里做一期简单的入门教程,想深入学习且感兴趣的小伙伴自行去知乎和b站看大佬们的教程。此软件很吃硬件,越逼真对电脑的性能要求越高,其中通过真人照片训练高素质逼真图可做到AI换脸的功能,建议使用万元以上的台式。 考虑到文件为电脑端独享,本落做了分卷压缩包,需要全部下载下来放在同一个文件夹里才可以成功解压,文件路径不可以有中文。解压完毕后,可见多个文件夹,一一介绍。
关于软件的安装:打开novelai-webui-jisanku,找到starter_webui配置启动器.bat,先选择自己机器的配置,再选择“配置并启动”,如无法启动。找到start_webui.bat双击即可。本落提供的是本地离线中文版,软件全名为Stable Diffusion WebUI,原软件大小为10G,有的版本内嵌了模型,可能会更大一些 (比如本落提供的版本,内嵌了模型容量20G+) 。本落提供的安装包已整合了lora+VAE (真感兴趣的小伙伴看大佬的教程肯定是会用到的)。
软件的部分功能更新需要用到梯子,且有概率导致软件无法打开。
关于模型:模型可以简单理解为学习了不同专业的毕业生。是其他用户对软件做机器学习的产物,本落的模型包内提供了约180G的模型,也可以训练自己的模型或对已有模型做融合,当然,所有的模型都可以用来做色图。
关于tag生成器和魔法咒语:软件已做了汉化,但机器是只认英语的,此为几万个形容词,帮助英语学渣更好得调教软件做出自己的想要的图。
常用参数介绍
- Prompt(提示词):对想要生成的图进行文字描述,越靠前权重越高
- Negative prompt(反向提示词):对不想要在图中出现的东西进行文字描述
- Sampling Steps(采样步数):扩散模型的工作方式是从随机高斯噪声向符合提示的图像迈出小步。这样的步骤应该有多少个。更多的步骤意味着从噪声到图像的更小、更精确的步骤。增加这一点直接增加了生成图像所需的时间。回报递减,取决于采样器
- Sampling method(采样器):使用哪种采样器。Euler a(ancestral 的简称)以较少的步数产生很大的多样性,但很难做小的调整。随着步数的增加,非 ancestral 采样器都会产生基本相同的图像,如果你不确定的话,可以使用 LMS
- Batch count/n_iter:每次生成图像的组数。一次运行生成图像的数量为 Batch count * Batch size
- Batch size:同时生成多少个图像。增加这个值可以提高性能,但你也需要更多的 VRAM。图像总数是这个值乘以批次数。除 4090 等高级显卡以外通常保持为 1
- CFG Scale(无分类指导规模):图像与你的提示的匹配程度。增加这个值将导致图像更接近你的提示(根据模型),但它也在一定程度上降低了图像质量。可以用更多的采样步骤来抵消
- Width:图像的宽度,像素。要增加这个值,你需要更多的显存。大尺度的图像一致性会随着分辨率的提高而变差(模型是在 512x512 的基础上训练的)。非常小的值(例如 256 像素)也会降低图像质量。这个值必须是 8 的倍数(个人建议为64的倍数)
- Height:图像高度(个人建议为64的倍数)
- Seed:随机数的起点。保持这个值不变,可以多次生成相同(或几乎相同,如果启用了 xformers)的图像。没有什么种子天生就比其他的好,但如果你只是稍微改变你的输入参数,以前产生好结果的种子很可能仍然会产生好结果。
采样器
目前好用的有 Euler,Euler a(更细腻)和 DDIM。
推荐 Euler a 和 DDIM,新手推荐使用 Euler a
Euler a 富有创造力,不同步数可以生产出不同的图片。调太高步数 (>30) 效果不会更好。
DDIM 收敛快,但效率相对较低,因为需要很多 step 才能获得好的结果,适合在重绘时候使用
LMS 和 PLMS 是 Euler 的衍生,它们使用一种相关但稍有不同的方法(平均过去的几个步骤以提高准确性)。大概 30 step 可以得到稳定结果
PLMS 是一种有效的 LMS(经典方法),可以更好地处理神经网络结构中的奇异性
DPM2 是一种神奇的方法,它旨在改进 DDIM,减少步骤以获得良好的结果。它需要每一步运行两次去噪,它的速度大约是 DDIM 的两倍。但是如果你在进行调试提示词的实验,这个采样器效果不怎么样
Euler 是最简单的,因此也是最快的之一
CFG Scale 提示词相关性
cfg scale 是图像与提示词的契合度,该值越高,提示词对最终生成结果的影响越大,契合度越高。
过高的 CFG Scale 体现为粗犷的线条和过锐化的图像。
注意尺寸
出图尺寸太宽时,图中可能会出现多个主体。
要匹配好姿势,镜头和人物才不畸形,有时候需要限定量词,多人物时要处理空间关系和 prompt 遮挡优先级。
人数->人物样貌->环境样式->人物状态
1024 之上的尺寸可能会出现不理想的结果!推荐使用 小尺寸分辨率 + 高清修复(Highres. fix)
Highres. fix 高清修复
通过勾选 txt2img(文生图) 页面上的 "Highres. fix" 复选框来启用。
默认情况下,txt2img(文生图) 在高分辨率下会生成非常混沌的图像。该选项会使得模型首先生成一张小图片,然后通过 img2img 将图片分辨率扩大,以实现高清大图效果
Batch Count 与 Batch Size
- Batch Count(生成批次) 指定共生成几个批次。
- Batch Size(每批数量) 指定每个批次并行生产多少张图片。
大的 Batch Size 需要消耗巨量显存。若您的显卡没有超过 12G 的显存,请不要调节 Batch Size。
对于显存极大的显卡而言,一次生成一张图片无法充分利用显卡计算容量,此时可将 Batch Size 提高以充分压榨算力。
随机种子
理论上,种子决定模型在生成图片时涉及的所有随机性。
实际的种子数值并不重要。它只是初始化一个定义扩散起点的随机初始值。
在应用完全相同参数(如 Step、CFG、Seed、prompts)的情况下,生产的图片应当完全相同。(不使用 xformers 等会带来干扰的优化器)
Denoising strength 降噪强度
Denoising strength 仅在 img2img(图生图)或 高清修复 时被应用,其表征最后生成图片对原始输入图像内容的变化程度。通过调整该值,可以降低对画风的影响,但也会弱化 img2img 能力。值越高 AI 对原图的参考程度就越低 (同时增加迭代次数)。
对于图生图来说,低 denoising 意味着修正原图,高 denoising 就和原图就没有大的相关性了。一般来讲阈值是 0.7 左右,超过 0.7 和原图基本上无关,0.3 以下就是稍微改一些。
实际执行中,具体的执行步骤为 Denoising strength * Sampling Steps。
模型安全提示
.ckpt 和 .pt 文件使用 Pickle模块 加载模型,而Pickle 模块在设计上并不安全。
所以模型种可能含有恶意数据,可使得加载期间执行任意代码。原则上,您应该只加载您信任的数据。永远不要加载可能未知来源的、或可能被篡改的模型。
一种新型的模型格式 safetensors 解决了这个问题。如果模型作者提供了这个格式的模型,请优先选择它。
文字转图片
单词标签
对于在标签单词上特化训练的模型,建议使用逗号隔开的单词作为提示词。
普通常见的单词,例如是可以在数据集来源站点找到的著名标签(比如 Danbooru)。
单词的风格要和图像的整体风格搭配,否则会出现混杂的风格或噪点。
避免出现拼写错误。NLP 模型可能将拼写错误的单词拆分为字母处理。
顺序:前面的词汇会锚定画面的色彩分布。什么重要什么放前面
自然语言
对于在自然语言上特化训练的模型,建议使用描述物体的句子作为提示词。
取决于训练时使用的数据集,可以使用英文,日文,特殊符号或一些中文。大多数情况下英文较为有效。
避免 with 之类的连接词或复杂的语法,大多数情况下 NLP 模型只会进行最简单的处理。
避免使用重音符(如 é 和 è)和德语 umlauts(如 ä 和 ö),它们可能无法被映射到正确的语义中。
不建议随意套用现成模板,尤其是无法经过人类理解的模板。
Emoji
Emoji表情符号也是可以使用并且 非常准确 的
Emoji 因为只有一个字符,所以在语义准确度上表现良好
颜文字
微笑 不悦 使眼色 开心 吐舌头 :-C 很悲伤 :-O 惊讶 张大口 :-/ 怀疑
仅支持西方颜文字
空格
逗号前后的少量空格并不影响实际效果。
开头和结尾的额外空格会被直接丢弃。词与词之间的额外空格也会被丢弃。
标点符号
用逗号、句号、甚至是空字符(\0)来分隔关键词,可以提高图像质量。目前还不清楚哪种类型的标点符号或哪种组合效果最好。
当有疑问时,只要以一种使提示更容易被阅读的方式来做。
对于部分模型,建议将下划线(_)转换为空格。
请牢记右上角地址发布页 请下载到本地再解压
资源编号:fulibl_vip_AI
落总,补个度盘的可以吗,我找半天找不到这工具
2024-01-18 09:14哔哩哔哩搜索下 有更全更新的教程
2024-01-18 11:24落,补个百度链接好不好~
2023-12-10 13:48这个帖子其实已经没有必要补了,因为这个工具每个月都会上新
2023-12-11 17:05要是真的想学哔哩哔哩已经有很多视频教程了
有什么好的控制脸部表情的方法啊
2023-04-23 20:58简单,tag里将表情的关键词提前
2023-04-25 01:02小落小落,我发邮件给你没有收到回复,估计是进垃圾箱了,可以查看一下嘛。
2023-04-23 18:50麻烦重新下一下,我看到的都回复了
2023-04-25 01:03小落小落,这个模型是什么?能分享一下吗?
2023-04-19 10:00好的,我有时间重新做下新的教程
2023-04-19 13:57我可以理解成是不是我可以用我老婆表妹的头像生成我想要的图片,想想都兴奋??
2023-03-29 21:59为什么我生成的全是漫画啊
2023-03-21 14:38因为你用的tag给的不是很准确,最简单的方法是去下载逼真模型
2023-03-21 15:15请问这个有那些lora的配方吗?就是国风0.2+韩国0.3这样的配方吗
2023-03-15 17:45这些是模型,是的,加入了160G的模型
2023-03-15 23:51先收藏了,等以后换了新电脑再下载
2023-03-10 08:13配置并启动然后就出现命令提示符,然后就不懂用了,也没有什么东西出来
2023-03-07 16:01直接点击start即可
2023-03-10 20:04小落小落,可以分享一个不带额外模型的版本吗,出了点问题要重装,全部重下太慢了QAQ
2023-03-06 23:33可以,邮件私信我
2023-03-07 02:06私你了
2023-03-07 11:22好的,我能看到的都回复了
2023-03-10 20:04小落,会员也需要两个福利点购买吗
2023-03-06 22:51是的,买的时候花了不少钱,这个帖子注定回不了本
2023-03-06 23:01不知道梯子影响大不大呢...许久未爬梯了不太想配置...
2023-03-06 18:25不太大
2023-03-06 22:19现在从求教程,变成求封面,哈哈哈
2023-03-06 02:34求封面,小落~
DA50F664BA843CC8D8881CC2C66E9225#8D5F58B0A6620508CF241887314F0754#2654720#03.06.tar
2023-03-06 03:28这张图是我自己随意生成的hh,谢谢你能喜欢啦
收到,好看的好看的,谢谢小落~
2023-03-06 03:41开源项目地址https://github.com/AUTOMATIC1111/stable-diffusion-webui
2023-03-06 00:47模型下载地址https://civitai.com
感谢提供信息(舍弃了那句不妥的言论,目前来说并不简单)
2023-03-06 00:55因为github上的文档是英文的,可能不太行
2023-03-06 01:04这里还有一篇专栏https://b23.tv/K9ffTXS
像是第三方插件比如汉化补丁,模型的使用都有讲到,自行搭建应该没啥问题
额,其实我已经安排了离线包,解压就可以啦
2023-03-06 03:26这就去折腾
2023-03-05 22:17cool
2023-03-05 22:48我的服务器终于有用武之地了
2023-03-05 18:24好耶
2023-03-05 22:48以后我就是画色图的大佬了是吧(滑稽)从消费端到生产端的大跨越
2023-03-05 14:16果然ghs才是生产动力啊
2023-03-05 22:47可以发一下这些文件的哈希值吗
2023-03-05 13:44是本落自己压缩生成的,哈希值肯定与你的不重复喔
2023-03-05 18:18强啊小落 夸夸
2023-03-05 12:37感谢夸夸
2023-03-05 22:48第一次看到这种内容的帖子,最近b站很多ai绘图直出的视频,其实都是擦边啦。
2023-03-05 11:34没错,紧跟时事
2023-03-05 22:47从入门到卸载
2023-03-05 09:52熟练掌握从下载解压到卸载的过程
2023-03-05 18:18技术帖。。。
2023-03-05 01:16谈不上技术,因为我也没有搞懂什么内容hhh
2023-03-05 01:51学习
2023-03-05 00:45这个点应该休息才对啦
2023-03-05 01:51流弊
2023-03-04 23:38确实有点
2023-03-05 00:34