语音合成(Text-to-speech,TTS),又称文语转换技术,是将文字转换为自然语音的一类技术,是服务于语音交互、信息播报、有声朗读等任务的核心技术。TTS是一个典型的序列到序列(Seq2Seq)任务。然而和机器翻译等NLP中的Seq2Seq任务相比,TTS任务更具挑战,因为它是一个严重的不等长序列映射任务,诸如“hello”这样一个简短的单词就可能对应个样本点,且人耳听觉对合成语音的音质和自然度具有非常苛刻的要求。为了应对“严重不等长序列映射”的任务,当前的TTS框架通常采用两段式结构——由声学模型(acousticmodel)和声码器(vocoder)两部分级联构成。声学模型负责从文本序列中预测低分辨率(帧级别)的中间表示,而声码器从中间表示再生成波形采样点。通常情况下这些帧级中间表示是人工设计好的声学参数,例如梅尔谱(melspectrum),BFCC等。
西工大音频语音与语言处理研究组(ASLP
NPU)一直致力于提升语音合成的音质,去年提出了基于子带的MelGAN声码器—Multi-bandMelGAN[1]。近期,由实验室与腾讯AILAB合作的论文"Glow-WaveGAN:LearningSpeechRepresentationsfromGAN-basedVariationalAuto-EncoderForHighFidelityFlow-basedSpeechSynthesis"被语音研究顶级会议INTERSPEECH接收[2]。在这项工作中,与之前大多数研究中使用预先设计好的声学中间表示(如常用的梅尔谱)不同,论文提出了使用VAE(VariationalAuto-Encoder)结合GAN(GenerativeAdversarialNetwork)直接从语音中学习中间表示,然后利用基于Flow的声学模型对潜在中间表示的分布进行建模。实验结果表明,基于Flow的声学模型可以准确地对学习到的语音表示的分布进行建模,并且所提出的TTS框架,即Glow-WaveGAN,合成的音频质量优于主流的利用梅尔谱作为中间表示的模型。现对该论文进行简要的解读和分享。论文题目:Glow-WaveGAN:LearningSpeechRepresentationsfromGAN-basedVariationalAuto-EncoderForHighFidelityFlow-basedSpeechSynthesis
作者列表:从坚,阳珊,谢磊,苏丹
论文原文: