Skip to main content

VQVAE: Neural Discrete Representation Learning

Abstract

在机器学习中,无需监督学习来学习有用的表示仍然是一个关键挑战。本文中提出了一个简单但强大的生成模型,用于学习这种离散表示。模型,Vector Quantised-Variational AutoEncoder(VQ-VAE),与VAE在两个关键方面不同:编码器网络输出离散的代码,而不是连续的代码;先验是可学习的,而不是静态的。为了学习离散的潜在表示,文章采用了向量量化(VQ)的思想。使用VQ方法使模型能够避免“后验坍缩”问题,即在VAE框架中通常观察到的情况,其中潜变量在与强大的自回归解码器配对时被忽略。将这些表示与自回归先验相配对,模型可以生成高质量的图像、视频和语音,以及进行高质量的说话人转换和无监督学习音素,进一步证明了学到的表示的实用性。