DC娱乐网

图像生成彻底告别VAE像分类器那样训练生成模型近年来,基于扩散模型的图像生成技术

图像生成彻底告别VAE像分类器那样训练生成模型

近年来,基于扩散模型的图像生成技术发展迅猛,催生了Stable Diffusion、Midjourney等一系列强大的文生图应用。然而,当前主流的训练范式普遍依赖一个核心组件——变分自编码器(VAE),这也带来了长久以来困扰研究者们的几个问题:

- 训练复杂性:VAE旨在将高维图像压缩至低维隐空间,并能从中重建图像。但其训练过程需要在压缩率和重建质量之间取得精妙平衡,本身就极具挑战。

- 高昂的微调成本:当需要在新的领域(域外数据集)上微调生成模型时,如果预训练的VAE在该领域表现不佳,则必须连同生成模型一起微调,这无疑会显著增加训练成本和开发周期。

为了从根本上解决VAE带来的诸多限制,EPG中提出通过自监督预训练(SSL Pre-training)与端到端微调(End-to-End Fine-tuning)相结合的方式,彻底去除了生成模型对VAE的依赖。