296 0

Non-Autoregressive 방식의 Deep Convolutional 음성 합성 시스템에 관한 연구

Title
Non-Autoregressive 방식의 Deep Convolutional 음성 합성 시스템에 관한 연구
Other Titles
A Study of a Non-Autoregressive Deep Convolutional Neural Speech Synthesis
Author
이준모
Alternative Author(s)
Lee, Jun Mo
Advisor(s)
장준혁
Issue Date
2019-02
Publisher
한양대학교
Degree
Master
Abstract
심화 신경망 기반의 end-to-end 음성 합성 기술은 하나의 심화 신경망 모델이 문장데이터를 분석하여 spectrogram 기반의 음성 특징 또는 음성 신호를 생성해내는 기술을 말한다. 문장 데이터와 음성 데이터의 sampling rate가 서로 다르기 때문에 이를 해결하기 위해 sequence-to-sequence (seq2seq) 네트워크와 attention mechanism이 사용된다. seq2seq 네트워크는 Encoder와 Decoder로 구성되어있다. Encoder는 문장 데이터를 정제하는 역할을 하며, Decoder는 Encoder에 의해 정제된 정보를 바탕으로 spectrogram 기반의 음성 특징을 생성해낸다. Decoder는 생성된 출력물이 다음 시간의 입력이 되는 autoregressive flow를 바탕으로 순차적으로 출력을 생성해낸다. Autoregressive flow는 효율적인 정보의 전달을 가능하게 하지만 시간 순서에 따라 순차적으로 출력을 생성해야하기 때문에 속도가 느리다는 단점이 있다. 본 논문에서는 time varying meta-template 데이터를 입력으로 하여 Autoregressive flow를 제거하기 위한 방법을 제안한다. 추가적으로 본 논문에서는 Autoregressive flow의 효율적인 정보 전달 없이 음성 합성 모델을 학습 시킬 수 있는 다양한 방법들을 적용하여 음성 품질의 저하를 최소화하며 속도개선을 이끌어내었다.
Deep leanrning based end-to-end speech synthesis is a technique generating speech data with text data using single deep neural network. To build an end-to-end speech synthesis model, a sampling rate difference between text data and speech data is a trouble to overcome. sequence-to-sequence network and attention mechanism were proposed as a solution of the sampling rate gap problem. sequence-to-sequence network separates the role of encoder which analyze an input sequence and decoder which generates an output sequence. In between the encoder and the decoder, attention mechanism takes on a role of selector. The attention mechanism collects information from encoder's output which is suitable for every decoding step. This whole mechanism makes it possible a single DNN model to generate speech with high quality. However since the sequence-to-sequence network's decoder produces an input data with autoregressive flow, the speed of generating speech data is slow. In this thesis, a non-autoregressive speech synthesis model which takes time varying meta-template data as an input. Since the model loses information which transmitted by autoregressive flow. The thesis also proposes the proper ways to train the model efficiently.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/99715http://hanyang.dcollection.net/common/orgView/200000434637
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > ELECTRONICS AND COMPUTER ENGINEERING(전자컴퓨터통신공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE