85 0

플로우 기반의 후처리 모듈을 통한 향상된 제로샷 음성 스타일 트랜스퍼

Title
플로우 기반의 후처리 모듈을 통한 향상된 제로샷 음성 스타일 트랜스퍼
Author
이호영
Advisor(s)
장준혁
Issue Date
2024. 2
Publisher
한양대학교 대학원
Degree
Master
Abstract
Deep neural network 기반의 neural text-to-speech (TTS) 모델은 최근 몇 년 동안 성능이 눈에 띄게 향상되었다. Neural TTS 모델은 단일 화자 뿐만 아니라 다화자 환경에서도 사람의 음성처럼 자연스러운 음성을 합성한다. 이에 여러 응용 분야에서 음성 합성에 대한 높은 수요를 보이고 있고, 특히 개인화 음성 합성에 대한 수요가 점점 늘어나고 있다. 개인화 음성 합성에서는 새로운 화자에 대한 adaptation 성능이 중요한데, 추가적인 fine-tuning을 진행하거나 레퍼런스 오디오를 입력하는 style transfer 방법이 있다. 추가적인 fine-tuning을 진행하는 기존 방법들은 원하는 화자의 음성 데이터를 수집하고 전체 모델을 학습해야 하는 번거로움이 발생한다. 또한 기존의 style transfer 방법들은 unseen speaker의 스타일을 따라하는 점에서 만족스럽지 못한 성능을 보여준다. 본 논문에서는 추가적인 fine-tuning을 진행하지 않고도 unseen speaker의 레퍼런스 오디오 스타일을 따라 음성을 합성하는 zero-shot style transfer for end-to-end (E2E) TTS 모델을 제안한다. Normalizing Flows 기반의 후처리 모듈 (Post-net)을 추가해서 간단한 loss function (e.g., L1, MSE)으로만 이루어진 모델에서 발생하는 over-smoothing 문제를 해결한다. Style encoder를 통해 추출된 스타일 정보를 text encoder, mel decoder 뿐 아니라 후처리 모듈에도 conditioning하여 모델이 더 복잡한 분포를 모델링할 수 있게 되어 더 세밀한 표현의 mel-spectrogram이 합성 가능하다. 이로 인해 zero-shot style transfer 성능이 향상되어 레퍼런스 오디오와 더 유사한 고품질의 음성을 생성할 수 있다. 또한 text와 mel-spectrogram을 정렬해주는 외부 alignment tool 대신 alignment를 unsupervised하게 학습하는 alignment module을 추가해서, 전체적인 모델 학습을 한번만 진행하도록 학습 과정을 간소화하였다.
URI
http://hanyang.dcollection.net/common/orgView/200000722067https://repository.hanyang.ac.kr/handle/20.500.11754/189299
Appears in Collections:
ETC[S] > ETC
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE