Repository at Hanyang University: 문서 단위의 음성 합성 시스템에 관한 연구

Browse

My Repository

Repository at Hanyang UniversityGRADUATE SCHOOL[S](대학원)DEPARTMENT OF ELECTRONIC ENGINEERING(융합전자공학과)Theses (Master)

1148 0

문서 단위의 음성 합성 시스템에 관한 연구

Title: 문서 단위의 음성 합성 시스템에 관한 연구

Other Titles: A Study on Document Level Neural Speech Synthesis

Author: 황성웅

Alternative Author(s): Hwang, Sung Woong

Advisor(s): 장준혁

Issue Date: 2021. 2

Publisher: 한양대학교

Degree: Master

Abstract: 현재 음성합성 기술은 attention 기반 종단형 음성 합성 모델을 통해 이미 인간 수준의 자연스러운 음성을 합성할 수 있을 정도로 발전하였다. 하지만, 학습된 길이 이상의 음성, 더 나아가 문서 단위의 음성을 합성할 때에는 텍스트와 음성 간의 alignment생성에 실패하여 제대로 된 음성을 생성하지 못하는 어려움을 겪고 있다. 본 논문에서는 10초 이하의 짧은 음성만으로 이루어진 학습 데이터를 사용하여 5분 이상의 음성을 합성할 수 있는 음성합성 모델을 제안한다. 본 논문에서 제안된 모델은 singing voice synthesis (SVS) 시스템이나 책 읽어주는 deep learning 같이 문서 단위의 텍스트를 음성으로 한번에 합성해야 하는 모델에 사용될 수 있다. 제안하는 모델은 학습 시에 curriculum learning을 통해 각 epoch마다 학습되는 음성의 길이를 늘려준다. 이는 기존의 학습 데이터를 랜덤하게 이어 붙이고, 그 사이에 token을 넣어주어 자연스러운 긴 음성이 만들어지는 방법을 통해 이루어진다. 학습되는 데이터의 길이가 늘어나는 동시에 batch 크기를 줄여 제한된 GPU 메모리에서 긴 문장이 학습될 수 있도록 한다. 이후, 합성 시에 attention masking을 통해 현재 시점에서 꼭 필요한 부분의 alignment만 사용하고 나머지는 masking 하여, 문서 단위의 음성을 합성한다. 현재 시점의 mel spectrogram을 생성할 때 attention의 어떤 부분이 필요한지 판단하기 위해, 학습 시에 duration predictor를 학습하여 합성에 사용한다. 본 논문에서는 Tacotron2 기반의 음성합성 모델과 duration predictor를 실험에 사용하였으며, 제안하는 방법을 통해 문서 단위의 음성합성 환경에서 기존 모델에 비해 80% 이상 낮은 character error rate (CER)과 attention error rate (AER)의 성능을 보였으며 5분 이상의 음성을 합성하는 경우에도 기존의 Tacotron2 모델의 음질을 유지하며 자연스러운 음성을 만들 수 있다는 것을 보였다.

URI: https://repository.hanyang.ac.kr/handle/20.500.11754/159168 http://hanyang.dcollection.net/common/orgView/200000485991

Appears in Collections:: GRADUATE SCHOOL[S](대학원) > DEPARTMENT OF ELECTRONIC ENGINEERING(융합전자공학과) > Theses (Master)

Files in This Item:

Export: RIS (EndNote); XLS (Excel); XML

Show full item record

한양대학교 리포지터리는 국립중앙도서관 OAK 보급사업으로 구축되었습니다. Feedback 개인정보처리방침

Hanyang University repository

Browse

My Repository

BROWSE