182 0

CL-Glow TTS: Conv-LSTM을 이용한 Zero Shot TTS

Title
CL-Glow TTS: Conv-LSTM을 이용한 Zero Shot TTS
Other Titles
CL-Glow TTS : Zero Shot TTS Based on Conv-LSTM
Author
김준범
Alternative Author(s)
Junbum Kim
Advisor(s)
박태준
Issue Date
2023. 8
Publisher
한양대학교
Degree
Master
Abstract
Speech synthesis is a technology for a machine to make a human speech using computing machine. Text-to-Speech(TTS) is one of the technologies of speech synthesis, which uses text information to make a sound. In our daily life, it is easy to find TTS based services, such as Naver`s Clovar and KT`s GIGA Gini. Recently, according to development in video media, TTS is used for communication between streamers and viewers. Moreover TTS is used in various fields such as AI assistance service, voice generation on online games, personalized services. Hidden-markov-model(HMM) had been studied at the early state in learning based TTS. However, HMM based model could not make unseen pronunciation and produce natural voice. To overcome these limitations, artificial intellligence has been applied on the research of TTS. On early study of artificial intelligence based TTS can only synthesis one person`s voice or pretrained person`s voice. To synthesis unseen speaker`s voice, zero shot learning TTS was proposed. However, zero shot TTS speaker encoder, which is based on LSTM cells, can not filter the noises. Therefore, there could be unnecessary information in the output voice. In this paper, we propose speaker encoder based on Conv-LSTM model. Through convolution layers we reduce the noise in the input data and compress the local features, which is impossible through LSTM layers. After convolution layer, LSTM layers can extract global feature information. By using Conv-LSTM model, we reinforce existing model that are susceptible to noise. Moreover we can compress and utilize speech features to perform naturally for new speakers as well. In this paper, we compare our proposed method with LSTM based approach. As the training result, LSTM models show under 20% accuracy. On the other side, Conv-LSTM show over 90% accuracy and also over 3 points on MOS test. In similarity, LSTM-768 shows best performance on MOS test. However, in F0 error rate, it shows 2% lower than Conv-LSTM. As a result, Conv-LSTM can be evaluated better than conventional methods to generate similar voices of speakers that have never been seen before. | 음성 합성 기술(Speech Synthesis)은 기계가 자동으로 말소리를 만들어내는 기술이다. 이러한 합성 기술 중 텍스트를 기반하여 음성을 합성하는 기술을 Text-To-Speech(TTS)라고 한다. TTS는 일상 생활에서도 많이 활용되고 있다. 대표적인 예로 네이버의 클로바, KT의 기가지니가 있다. 또한 최근에는 영상 미디어의 발전에 따라 인터넷 생방송에서의 소통으로도 사용되고 있다. 이 외에도 개인 비서 서비스나, 게임에서 음성 생성등 다양한 분야에서 TTS가 활용됨에 따라 TTS의 개인화 서비스가 필요해졌다. 초기 학습 기반 TTS는 hidden-markov-model(HMM) 기반의 모델로 연구가 되었다. 하지만 HMM 기반의 모델은 사전에 학습되지 못한 발음에 대해서는 표현되지 못하며, 합성되는 음성의 품질이 자연스럽지 못한 단점이 있다. 이러한 단점 극복을 위해 인공지능을 기반한 TTS 연구가 되었다. 초기의 인공지능 기반의 TTS는 한 명의 화자, 또는 사전에 학습된 화자만 발화가 가능했다. 이후 학습에 사용되지 않은 화자에 대해서도 발화할 수 있는 zero shot 학습 기법을 적용한 TTS가 연구되었다. 기존의 LSTM 기반 speaker encoder는 화자의 음성 데이터를 필터링하지 않고 사용하기 때문에 노이즈에 약하며, 불필요한 정보를 담고 있을 수 있다. 상기 단점 극복을 위해 본 논문에서는 기존의 LSTM 기반 speaker encoder를 Conv-LSTM 모델로 교체한다. Convolution 연산을 통해서 기존 LSTM에서 제거되지 않을 수 있는 노이즈를 제거한다. 또한 convolution 연산의 특징인 지역 특징을 추출하며 압축을 할 수 있다. 이후 LSTM 층을 통해서 전역적인 음성의 특징을 추출한다. 위 모델을 통해 노이즈에 약한 기존 모델을 보강하며, 음성 특징을 압축하여 이용하여 새로운 화자에 대해서도 좋은 성능을 보일 수 있다. 본 논문에서 제시한 Conv-LSTM을 이용하여 기존의 LSTM의 기법과 비교한다. 분류 기법을 이용한 학습에서 LSTM 모델의 경우 모든 학습에서 20%가 되지 못한 정확도를 보여준다. 반면 Conv-LSTM의 경우 90%가 넘는 정확도를 보여준다. 좋은 정확도를 보여준 Conv-LSTM 모델에서의 MOS 평가 역시 3점이 넘으며 의사소통이 가능한 수준을 보여준다. 유사도를 기반한 학습에서 LSTM-768이 MOS 평가에서 가장 좋은 성능을 보여준다. 하지만 화자의 특징을 평가하는 F0 error rate에서 Conv-LSTM과 비교하였을 때 2% 이상 낮은 성능을 보인다. 결과적으로 MOS에서 비슷한 성능을 내지만 화자의 특징을 잘 추출할 수 있어 한 번도 보지 못한 화자의 목소리를 비슷하게 생성할 수 있는 Conv-LSTM이 기존 방식보다 좋다고 평가할 수 있다.
URI
http://hanyang.dcollection.net/common/orgView/200000683444https://repository.hanyang.ac.kr/handle/20.500.11754/186705
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > APPLIED ARTIFICIAL INTELLIGENCE(인공지능융합학과) > Theses(Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE