222 0

Iterative Refinement for Non-autoregressive Text-to-Speech Synthesis

Title
Iterative Refinement for Non-autoregressive Text-to-Speech Synthesis
Other Titles
비자동회귀 방식의 음성합성 시스템을 위한 반복적인 개선 방법
Author
이모아
Alternative Author(s)
Moa Lee
Advisor(s)
장준혁
Issue Date
2023. 8
Publisher
한양대학교
Degree
Doctor
Abstract
Significant advancements in deep learning-based speech synthesis have been made possible by utilizing a sequence-to-sequence (seq2seq) framework with an attention mechanism. The seq2seq model is composed of an encoder that delivers linguistic features and a decoder that predicts the mel-spectrogram. It learns the alignment between speech and text through the attention mechanism, which allows the model to focus on specific parts of the input at each step of the decoding process. The decoder predicts the mel-spectrogram by utilizing an autoregressive flow that considers both the current input and information learned from previous inputs, making it well-suited for processing sequential data in speech synthesis. However, the autoregressive flow's recursive nature results in a time-consuming training and inference process, which can slow down the speed of synthesis. To address this problem, this dissertation introduces a novel method for generating realistic mel-spectrograms through iterative refinement. In this dissertation, we introduce a novel speech synthesis system that utilizes a fully-parallel decoding process and does not rely on autoregressive modeling. Our system employs a time-varying meta template (TVMT), whose length is modeled with a separate conditional distribution, to prepare the decoder input. Then, the TVMT is converted into spectral features by utilizing multiple decoders interconnected by up-down chains and an iterative attention mechanism. The burden of decoding is distributed across the decoder chains, and the predicted spectral features are progressively refined at each decoding step. Most importantly, compared to autoregressive CNN-based models, the proposed architecture improves the mel-spectrogram generation speed by a factor of 96 while providing superior speech quality (relative improvement of 3 %). Furthermore, we propose a new refinement method to remove the redundancy of the parameters of the previous model using multiple decoders and improve the performance. We propose the use of a diffusion model as a decoder to generate a high-quality mel-spectrogram through iterative denoising. First, we train an unconditional score-based generative model to generate a realistic mel-spectrogram, which we then use as a decoder (or refiner) during the inference stage. In the inference stage, the linguistic feature output from the text encoder is upsampled through a duration predictor and a length regulator, and a certain amount of noise is added before feeding it into the score-based decoder. The noise injection process blurs the prosody information that is masked inside the linguistic features, and the final decoder input contains some textual information.The diffusion model prior then iteratively removes the noise via a stochastic differential equation (SDE) to reconstruct the textual information and estimate the prosody information, generating a realistic mel-spectrogram from the noise-added input. Compared to the previous model using multiple decoders, the proposed architecture improves the synthesis speed by a factor of 3 while improving the speech quality (relative improvement of 2 %). |음성합성 기술은 인공적으로 인간의 음성을 생성하는 기술로, 현대의 음성합성 시스템은 심층 신경망을 이용하여 구축됩니다. 일반적으로, 음성합성 기술은 텍스트 정보를 음성 스펙트로그램으로 변환하는 음향 모델과 음성 스펙트로그램으로부터 음성 파형을 생성하는 보코더로 구성됩니다. 음향 모델은 어텐션 메커니즘 기반의 시퀀스-투-시퀀스 모델을 통해 구성되며, 이러한 모델은 이전 입력으로부터 학습한 정보를 고려하여 음성 스펙트로그램을 생성합니다. 이러한 모델은 자기 회귀적인 흐름을 활용하여 이전 입력을 고려하며, 시계열 데이터를 처리하는 음성 합성에 이상적입니다. 그러나, 자기 회귀적인 흐름은 훈련 및 합성 속도를 느리게 만들며, 실제 환경에서의 활용을 어렵게 만드는 요인이 됩니다. 본 논문에서는 이러한 문제를 해결하기 위해, 반복적인 개선을 통해 고품질의 음성 스펙트로그램을 생성하는 새로운 방법을 제안합니다. 이 논문의 첫 번째 부분에서는 자기 회귀 모델링에 의존하지 않고 병렬 디코딩 프로세스를 활용하는 새로운 음성 합성 시스템을 제안합니다. 이 방법에서는 문장 길이에 대한 상대적인 위치 정보와 절대적인 위치 정보를 이용하여 시간 변동 메타 템플릿(time-varying meta template: TVMT)을 구성하며, 이것은 디코더에 입력되어 점차 음성 스펙트로그램으로 변환됩니다. 또한, 다중 디코더 구조를 제안하여 음성 스펙트로그램의 반복적인 정제를 통해 최종적으로 고품질의 음성 스펙트로그램을 생성합니다. 이러한 다중 디코더는 각 디코더에 반복적인 어텐션 메커니즘을 적용하여 반복적으로 텍스트 정보를 주입하여 음성과 텍스트 사이에 정교한 정렬을 학습하도록 합니다. 이를 통해 고품질의 음성 스펙트로그램을 생성할 수 있으며, 생성된 음성 스펙트로그램은 보코더를 통해 음성 파형으로 변환됩니다. 실험 결과, 다중 디코더를 통한 음성 스펙트로그램의 반복적인 정제 방법이 기존의 자기 회귀적인 흐름을 사용하는 디코더 구조를 대체하여 자연스러운 음성을 생성하고 추론 속도를 크게 개선하는데 효과적임을 보였습니다. 이 논문의 두 번째 부분에서는 이전 모델의 매개변수 중복성을 제거하고 성능을 향상시키기 위한 새로운 개선 방법을 제안합니다. 이를 위해, 디코더로 확산 모델을 사용하여 반복적인 노이즈 제거를 통해 고품질의 음성 스펙트로그램을 생성하는 새로운 개선 방법을 제안합니다. 우선, 음성 스펙트로그램을 생성하기 위해 무조건적인 (unconditional) 점수 기반 생성 모델 (score-based generative model)을 학습시키고, 추론 단계에서 이를 디코더 (또는 정제기) 로 사용합니다. 텍스트 인코더에서 출력된 언어적 특징 (linguistic feature)은 지속시간 예측기 (duration predictor)와 길이 조절기 (length regulator)를 통해 업샘플링되고 일정량의 노이즈가 추가된 후 디코더에 입력됩니다. 노이즈를 추가하는 과정은 언어적 특징 벡터 내의 가려진 운율 정보를 흐리게 하는 역할을 하며, 최종적인 디코더의 입력은 텍스트 정보의 일부를 포함합니다. 그 다음, 디코더는 stochastic differential equation (SDE)을 통해 반복적으로 노이즈를 제거하며 가려진 운율 정보를 포함하는 음성 스펙트로그램을 생성합니다. 실험 결과, 이러한 구조는 기존의 다중 디코더 기반의 정제 방법보다 합성 속도를 크게 향상시키고 음성 품질을 향상시켜, 비 자동회귀 (non-autoregressive) 음성 합성 시스템을 구성하는 데 효과적임을 보여줍니다.
URI
http://hanyang.dcollection.net/common/orgView/200000683779https://repository.hanyang.ac.kr/handle/20.500.11754/187250
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > DEPARTMENT OF ELECTRONIC ENGINEERING(융합전자공학과) > Theses (Ph.D.)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE