新知榜官方账号
2023-11-24 08:34:19
AI作图需要几天,再缩减到几十分钟,再到几分钟,出图时间在不断加速,问题是,究竟快到什么程度,才会在专业的美术从业者甚至普通大众之间普及开来?这个无法给出具体答案,但是可以确定的是AI作图在技术和速度上的突破,很可能已经接近甚至超过阈值。
最近,Snap研究院推出最新高性能StableDiffusion模型——SnapFusion,已经算是“一秒出图”的StableDiffusion模型了。通过对网络结构、训练流程、损失函数全方位进行优化,在iPhone14Pro上实现2秒出图(512x512),且比SD-v1.5取得更好的CLIPscore。StableDiffusion模型是当前最热门的文本到图像(texttoimage)生成扩散模型。虽然在图像生成方面很强大,但所需的计算资源极大且推理碎度很慢。对于推理速度慢的问题,目前主要有2种解决方向:(1)减少推理步数(2)工程技巧优化。此次SnapFusion主要是对UNet进行优化,具体分为两部分:(1)UNet结构上的优化:通过分析原有UNet的速度瓶颈,本文提出一套UNet结构自动评估、进化流程,得到了更为高效的UNet结构(称为EfficientUNet)。(2)推理步数上的优化:众所周知,扩散模型在推理时是一个迭代的去噪过程,迭代的步数越多,生成图片的质量越高,但时间代价也随着迭代步数线性增加。为了减少步数并维持图片质量,Snap团队提出一种CFG-aware蒸馏损失函数,在训练过程中显式考虑CFG(Classifier-FreeGuidance)的作用,这一损失函数被证明是提升CLIPscore的关键!
通过下表1,我们可以看到SD-v1.5与SnapFusion的差距:SnapFusion模型的速度提升来源于UNet和VAEdecoder两个部分。UNet部分的改进最大:一是单次latency下降(1700ms->230ms,7.4x加速),这是通过提出的EfficientUNet结构得到的;二是Inferencesteps降低(50->8,6.25x加速),这是通过提出的CFG-awareDistillation得到的。如下图所示,SnapFusion对比SD-v1.5texttoimage,实现了推理时间大幅缩减并维持图像质量不降。CLIPscore衡量图片与文本的语义吻合程度,越大越好;FID衡量生成图片与真实图片之间的分布距离(一般被认为是生成图片多样性的度量),越小越好。
近日,StabilityAI联合Clipdrop推出了UncropClipdrop,可帮助用户一键扩展图片边界、改变尺寸。这个Uncrop功能,这个有点像Photoshop的GenerativeFill的图像扩充功能。Clipdrop称其为AI生成的“涂色”工具,可以通过创建扩展背景来补充任何现有照片或图像,从而改变任何因像的比例。Uncrop基于stabilityAI的文本到图像模型StableDiffusionXL。Uncrop允许用户通过重建图像和扩展他们的视觉面布来调整尺寸。比如横图变竖图,竖图变横图等。
Uncrop的使用方法非常简单:只需几个简单的步骤,用户就可以上传裁剪过的或不完美的因像。第一步:上传图片。第二步:选择要更改的尺寸,目前Uncrop支持最大尺寸是1024x1024。第三步:点击Next生成效果。Uncrop会生成很多效果,可以点击向右按钮进行查看。第四步:用户还可以结合其他功能对图片进行编辑,例如,选择一个“点燃”特效。第五步:可随意更改效果灯的位置和亮度,为图片增加艺术效果。
相关工具
相关文章
推荐
用Deepseek写AI绘图提示词,像呼吸一样简单!
2025-02-19 16:12
你以为AI绘画是黑科技?其实早成了“路边摊生意”!
2025-02-19 10:15
Flux爆火,全网最全面最详细的Flux使用教程!
2025-02-18 14:19
用AI如何创作音乐,实战教学来啦!
2025-02-17 17:23
MidJourney让你秒变绘画大神,从零开始画哪吒!
2025-02-17 14:56
AI应用新境界:让人工智能成为你的得力助手
2025-02-14 15:45
AI短片革命:当创作遇上智能,人人都能成为导演
2025-02-14 14:53
AI狂潮下的人类职场:是失业危机还是进化契机?
2025-02-13 16:53
开启影视创作新纪元,效率提升 10 倍的神器来了!
2025-02-13 15:11
深度解析DeepSeek:当AI技术照进创作产业的未来
2025-02-12 17:16