VQVAE: Neural Discrete Representation Learning

Abstract

在机器学习中，无需监督学习来学习有用的表示仍然是一个关键挑战。本文中提出了一个简单但强大的生成模型，用于学习这种离散表示。模型，Vector Quantised-Variational AutoEncoder（VQ-VAE），与VAE在两个关键方面不同：编码器网络输出离散的代码，而不是连续的代码；先验是可学习的，而不是静态的。为了学习离散的潜在表示，文章采用了向量量化（VQ）的思想。使用VQ方法使模型能够避免“后验坍缩”问题，即在VAE框架中通常观察到的情况，其中潜变量在与强大的自回归解码器配对时被忽略。将这些表示与自回归先验相配对，模型可以生成高质量的图像、视频和语音，以及进行高质量的说话人转换和无监督学习音素，进一步证明了学到的表示的实用性。

VQVAE: Neural Discrete Representation Learning

Abstract​

Abstract