104 0

운율 요소 추출에 의한 TTS의 운율 분리 및 미세 조정

Title
운율 요소 추출에 의한 TTS의 운율 분리 및 미세 조정
Other Titles
Fine-grained and Disentangled Prosody Control of TTS by extracting Prosody Components
Author
김지예
Advisor(s)
장준혁
Issue Date
2023. 2
Publisher
한양대학교
Degree
Master
Abstract
TTS 시스템은 몇 년 간 큰 발전을 거듭해 왔으며 최근에는 실제 사람의 음성과 비슷한 정도의 자연스러운 음성합성이 가능하게 됨에 따라 동영상 컨텐츠, 오디오북 등 여러 매체에서 음성합성 시스템을 사용하고 있다. 이러한 매체의 소비자들은 자연스러운 음성뿐 아니라 각 매체 특성에 적합한 다양한 표현을 가진 음성을 원하기 때문에 TTS 시스템에 감정을 더한 감정음성합성 등 표현력 있는 TTS 모델에 대한 수요도 증가하고 있다. 이러한 분야에서는 운율을 자유롭게 조정하는 것이 중요하다. 하지만 운율을 자유롭게 조정하는 것은 어려운 과제이며, 크게 두 가지의 고려해야할 점이 있다. 첫 번째는 미세 운율 조정 (fine-grained prosody control)이다. 많은 운율 조정 TTS 모델이 한 가지 토큰이나 라벨을 적용하여 한 문장에 통일된 발화 스타일 (speaking style)을 부여하는 방법을 취하고 있지만 더 자연스러운 음성합성을 위해서는 더 세밀한 발화 스타일의 변화가 필요하기 때문에 연구자들은 문장 내에서 운율을 변화시키는 방법에 대해 연구하고 있다. 두번째는 운율 분리 (prosody disentanglement)이다. 음성학에서 운율은 여러 요소를 포함하는 개념이며 사람의 음성에 복합적으로 나타나기 때문에 각 요소를 분리하여 조정하기가 쉽지 않다. 따라서 본 연구에서는 운율을 자유롭게 조정하기 위해 이 두 가지 어려운 점을 다루는 것에 더하여 레퍼런스 음성 없이 새로운 음성을 합성하는 방법을 제안한다. 이를 위해 운율 전달 실험과 운율 조정 실험을 했고 제안 모델이 타 모델과 비교하였을 때 세 가지 운율 요소를 잘 분리하며 안정적으로 미세 조정이 가능하다는 것을 확인하였다.
URI
http://hanyang.dcollection.net/common/orgView/200000652805https://repository.hanyang.ac.kr/handle/20.500.11754/179684
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > DEPARTMENT OF ELECTRONIC ENGINEERING(융합전자공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE