最近在捣鼓 text-to-speech 和 voice-conversion。整个发展史我不是很清楚,所以就写点现有的吧。 二阶段模型 (Two-Stage) Tacotron2 我一开始接触到的 TTS 应该是 Nvidia 的 Tacotron2。它把文本通过转换生成梅尔频谱 (Mel-Spe