159 0

DQN을 적용한 EVRC기반의 음성 향상 기법에 대한 연구

Title
DQN을 적용한 EVRC기반의 음성 향상 기법에 대한 연구
Other Titles
A Study on EVRC-Based Speech Enhancement by Deep Q-network
Author
김소현
Alternative Author(s)
Sohyeon Kim
Advisor(s)
장준혁
Issue Date
2019-02
Publisher
한양대학교
Degree
Master
Abstract
본 논문에서는 EVRC (Enhanced Variable Rate Codec) 기반의 음성 향상 기법에 강화학습의 일종인 DQN (Deep Q-network)를 적용하여 효과적인 잡음제거를 통해 음성인식의 성능을 높이는 방법을 제안한다. 기존의 통계모델 기반의 음성 향상 기법은 비정상 잡음환경에서의 성능이 현저히 떨어지는 문제점이 존재한다. 또한 심화 신경망 (DNN: Deep Neural Network) 기반의 음성 향상 기법은 신호 대 잡음비가 낮은 상황에서는 잔여 잡음이 존재하고 음성 왜곡이 발생하여 성능이 떨어지는 문제점이 존재한다. 이러한 문제를 해결하고자 기존의 음성 향상 기법에 강화학습을 적용하여 향상된 성능을 제공하는 음성 향상 기법을 제안한다. 음성향상에 강화학습을 적용한 기존의 연구들은 일반적으로 심화 신경망을 통해 잡음을 제거한 후 강화학습을 적용하여 심화 신경망 기반의 잡음제거 알고리즘의 성능 향상에 대해서만 다뤄온 것에 반해, 본 논문은 EVRC 기반의 잡음제거 알고리즘에 DQN을 적용한 모델을 구성하여 음성 향상 분야에서의 강화학습의 활용범위를 넓히고자 한다. EVRC 기반의 잡음제거 알고리즘에 DQN을 적용하기 위해 우선 학습 데이터셋을 통해 EVRC 이득을 추출한 후 군집화를 거쳐 32개의 이득을 구성하며 32개의 이득 중 가장 뛰어난 잡음 제거 성능을 보이는 값 1개를 선택 적용하여 잡음을 제거한다. 최적의 이득 값을 찾기 위해 심화 신경망으로 구성된 DQN을 학습하고 이 때, 음성신호의 PESQ를 통해 보상을 제공하며 보상이 최대가 되는 방향으로 학습한다. 또한 본 논문에서는 잡음 제거 기법의 성능을 높이기 위해 EVRC 파라미터 정보를 추가적인 입력으로 사용하여 심화 신경망을 학습시키는 방식을 제안한다. 제안된 방식의 음성 향상 기법은 다양한 잡음 환경에서 단어 오인식률 (WER: Word Error Rate)을 측정함으로써 음향학적 배경 잡음 제거 성능을 확인하였다. 제안된 방식의 음성 향상 기법을 이용하여 배경 잡음을 제거한 후 향상된 음성 신호의 단어 오인식률을 측정하여 성능을 비교한 결과, 기존의 EVRC 기반의 잡음 제거 기법보다 전체적으로 향상된 잡음 제거 성능을 보였다.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/99706http://hanyang.dcollection.net/common/orgView/200000434475
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > ELECTRONICS AND COMPUTER ENGINEERING(전자컴퓨터통신공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE