新媒易动态
NEWS CENTER
NEWS CENTER
2023-09-26
图画绘制:Source: Designed byLiunn
最后,当找到最类似的维度描绘后,把这些图画特征悉数融合到一同,构建出本次要产出的图画的总图画特征向量集。
至此,输入的一段话,就转换成了这次生成图画所需要的悉数特征向量,也便是AI所谓的现已“理解了你想画什么样的画了”。
这个跨过现已算是AI界的“登月一小步”了
有了CLIP的这个创新举措,根本上彻底打通了文字和图片之间的鸿沟,搭建了一个文本和图画之间相关的桥梁,再也不需要曾经图画处理界的打标签的方式来不断堆人了。
上面讲到AI绘画是把“马赛克”一点点抹掉,那所谓的“马赛克”图,也便是噪声图是怎样来的呢?
噪声图的是分散模型生成的,先记住这个概念“分散模型”。
讲分散模型之前,需要先讲另一个概念,AI生成图片的过程,其实是人工智能领域的一个分支,生成模型(Generative Model)。
生成模型主要是生成图画的,通过扔进去很多真实的图片让AI不断去了解、知道和学习,然后依据训练作用,自己生成图片。
在生成模型里,有个主动编码器的东西,它包括两个部分:编码器和解码器。
编码器能够把比较大的数据量紧缩为较小的数据量,紧缩的条件是这个较小的数据量是能够代表最开端的大数据量的;
解码器能够依据这个较小的数据量在适当的条件下,还原为最开端的的大数据量。
所以这个时分就有意思了:
能否直接给它一个较小的数据量,看看它自己能随机扩大成一个什么样的大数据量?
图画绘制:Source: Designed byLiunn
答案是能够的,但,测验作用很一般。
所以主动编码器不行了,怎样办呢,科学家发明晰另一个东西,叫VAE(变分编码器,Variational Auto-encoder)。
VAE是做什么的,主要是把较小的数据量进行规则化,让其符合高斯分布的概率。
这样就能够依据这个,来调整一个图片信息依照概率的改动进行对应的改动,但是有个问题,这个太依赖概率了,大部分概率都是假定的抱负情况,那怎样办呢?
所以这个时分科学家就想,能不能做两个AI,一个担任生成,一个担任查验它生成的行不行,也便是AI互相评估真假,这便是GAN,对抗神经网络诞生了。
GAN一方面生成图片,一方面自己检测行不行,比方有时分有些图片细节没有依照要求生成,检测的时分GAN发现了,它后面就会不断加强这块,最终让自己觉得成果能够,这样不断地迭代成千上亿次,最终生成的成果,检测也OK的时分,便是生成了一个AI的图片了。
但问题又来了
GAN一方面自己做运动员,一方面自己做裁判,太忙了,不只消耗很多的计算资源,同时也简单犯错,稳定性也欠好,那怎样办呢?能不能让AI别搞这么杂乱,用一套流程完成呢?
答案是必定的,这便是跨过了生成模型时代后,分散模型的时代到来了。
话题回到分散模型这儿。
分散模型最早是由斯坦福和伯克利学术专家,在2015年相关论文里提出的,依据正态分布给图画逐渐增加噪声,到了2020年加噪声的过程被改为依据余弦类似度的规则来处理。(文末附上了15年和20年的原始学术论文链接,感兴趣能够自行阅览)
依据余弦调度逐渐正向分散原始图,就像把一个完好的拼图一步一步拆开,直至彻底打乱。
图画绘制:Source:Designed byLiunn
到这儿,第二个问题也解决了。当你看到这儿的时分,AI绘画的输入信息根本Ready了。
AI把文字转成了特征向量了,也拿到噪声图片了,但噪声图是怎样一点点被去除“马赛克”的呢?
它是怎样消除去马赛克的呢?这儿面分为两个过程:
过程一,降维数据运算,提高运算功率;
过程二,规划降噪网络,辨认无用噪声,精准降噪。
先看过程一:还记得上文说到的主动编码器么?
图画特征向量和噪声图,会一同扔到编码器里进行降噪,也便是去除马赛克的过程。
但是这儿有个问题,便是一张512*512的RGB图片就需要运算786432次,即512*512*3=786432条数据,这个运算量太大了
所以在这些数据在进入到编码器之前,都会被紧缩到潜空间里去,降维到64*64*4=16384条数据(不知道你有没有用SD的时分注意到,我们在Stable Diffusion里调整图画巨细的时分,最小只能拖到64px,这便是其中的原因)。
这样的话,整个文生图的任务就能够降维到消费级的GPU上运算(虽然现在算力依然是个问题,A100都没有吧?有的话 私我!)
降低了落地门槛,运算和装备功率都得到了极大的提高。
再看过程二:规划一个降噪网络。
理解了数据降维的问题,我们继续看,AI怎样逐渐去除噪声生成新图呢,图画编码器又是怎样给图画降噪,从而生成一张全新的图片的呢?