新媒易动态
NEWS CENTER
NEWS CENTER
2023-09-26
这样优点在于处理图片时,相同位置的信息在编码、解码进程中能够方便快捷的进行信息传输。
那它是怎样工作的呢?
刚才我们说了,DDPM说到,目前基本上一切的模型都选用直接猜测图画中的噪声,以便于取得一张噪声更少的图片。
U-Net也是如此。
U-Net依据拿到第一节里说到的图画的悉数特征向量调集后,从向量调集里经过采样的办法抽取一部分特征向量,再依据这些向量辨认出其中的无用的噪声
然后用最开始的全噪声图和当时这次猜测的噪声做减法(实践处理进程比这会复杂一些),然后得到一个比最开始噪声少一些的图,然后再拿这个图,重复上述流程,再次经过采样的办法抽取一部分特征向量,再去做噪声猜测,然后再拿N-2次的图画和N-1次的图画相减,拿到N-3次的图画
继续重复上述流程,直至终究图画清晰,没有噪声或没有辨认出无用的噪声为止,终究生成一张符合要求的图画。
这儿面,有的同学注意到了,还涉及到一个采样办法的环节。
每一次的采样,依据不同的采样办法,能够用同样的办法,也能够用不同的采样办法。不同的采样办法会抽取出不同维度、不同特质、不同规划的特征向量,终究确实会对输出结果有影响(这也是影响AI绘画可控性的要素之一)。
终究,还记得刚刚说到的数据降维吗?
降维是为了降低运算量,加快速度,降维后其实是进入到一个潜空间里,那么图画悉数降噪完成后,会经过图画解压器也便是VAE模型,从头还原回来,被从头释放到像素空间里(能够理解为IPhone里云端存储的相片,你最开始看的是缩略图,当你点开大图想看的时分,会慢慢从云端下载,变成高清的)。
以上,便是噪声模型网络去噪的简易进程。
AI是怎样能够依照我描绘的来去除特定的马赛克,而不是我写了“狗狗”,画出来一只“猫咪”呢?
U-Net模型怎样辨认应该去除哪些噪声呢?其实这便是一个模型练习的进程。
解说模型练习之前,需要先普及几个概念:
先看U-Net的练习集是怎样构建的,主要分为四个过程:
再来看U-net是怎样处理的。
U-Net的练习集是许多张已经叠加了随机噪声的数据库,能够理解为许多添加了马赛克的图片(篮球练习场地),然后让AI不断地从这个数据库里抽取图片出来,自己尝试抹去噪声,悉数抹掉后再来和这张图的原图做比对,看看不同多大。
计算出这个距离,然后从头去库里抽取,再尝试抹去噪声(强化学习),循环无数次,终究完成的作用是,不管怎样随机抽,而且换一个新的噪声图片库(测验集),AI抹掉的噪声后的图画也能和原图很像(风格都类似,不一定是原图,这也便是为什么AI每次出图都不相同)。
这样的话就算经过了,这个模型就算Ready了(能够上线了)。
以上便是U-Net辨认且去除无用噪声的进程。
经常玩AI绘画的小伙伴会发现,其实目前大模型最不可控的当地便是它的不稳定性。
那么假如想要稍微操控下AI绘画的作用,有什么好的办法吗?
这儿给出四种办法,供大家参阅。
经过输入不同的描绘词,以及更改部分Prompt,一步步引导AI模型输出不同的图画,其实质便是更改了匹配到的CLIP对应的待处理的图画特征向量调集,所以终究的出图会不断地调整、优化(这儿还有一些形而上学技巧,比如给某些Prompt里的部分起名字,也能够取得稳定性,实质是给部分Prompt结构打符号,便于AI算法辨认…)。
现在干流的AI绘画软件和模型都支撑垫图功能,也便是你上传一张图,然后依据你这张图的轮廓或许大概款式,再生成一张图。
其实质便是将你上传的图叠加几层噪声,然后拿这个叠噪后的图片作为基础再让AI进行去噪操作,后续流程不变,所以终究风格、结构和原图类似的概率很大。
不过值得一提的是,现在许多Webui还支撑挑选和原图类似度多少的操作,对应到算法上其实便是在问你要叠加多少层噪声,当然是叠加的噪声越少,越和原图类似,反之或许越不像(不过这也是概率问题,也会存在叠加的多的时分生成的图也比叠加的少的时分更像)。
拿最典型、最经典的ControlNet来说,能够经过恣意条件或要求来操控生成的作用,基本上能够说是指哪打哪的作用了。
其实质你能够理解为是经过一张图来练习模型,达到自己想要的作用。