238 0

잔향환경에서의 음성인식을 위한 심화신경망 기반의 앙상블 결합 음향 모델

Title
잔향환경에서의 음성인식을 위한 심화신경망 기반의 앙상블 결합 음향 모델
Author
이지혜
Advisor(s)
장준혁
Issue Date
2016-08
Publisher
한양대학교
Degree
Master
Abstract
일반적으로 음성신호는 다양한 형태의 배경 잡음과 잔향에 의해 오염이 되고, 이는 시스템의 성능 저하를 발생시킨다. 원거리 음성 인식은 스피커와 마이크 간의 먼 거리로 인해 야기되는 잔향 때문에 음성 신호가 왜곡되므로 다루기 어려운 문제이다. 원거리 환경에서의 음성 인식을 위해 여러 가지 전처리와 후처리 기법들이 고려된다. 하지만 다양한 잔향 환경에서의 음성 인식은 여전히 부정확하다. 본 논문에서는 실제 상황의 광범위한 잔향을 다루기 위해 심화신경망 (deep neural network) 앙상블과 결합 학습된 심화신경망 앙상블을 이용한 음향 모델링 (acoustic modeling) 방법을 제안한다. 먼저 심화신경망의 구조와 학습 방법, 기존의 심화신경망 기반 음향 모델들을 소개하고, 심화신경망 기반 앙상블 음향 모델과 결합 학습법을 적용한 앙상블 음향 모델을 제안한다. 앙상블 음향 모델은 구성 단계에서 각각 서로 다른 잔향 시간 (reverberation time 60)에 대해 여러 개의 심화신경망을 생성한다. 또한, 심화신경망 음향 모델 앙상블에 이용되는 각각의 모델은 특징 매핑 (feature mapping)과 음향 모델링을 모두 포함하도록 결합 학습되며, 특징 매핑은 전처리로써 잔향을 제거하는 역할을 한다. 테스트 단계에서는 최대 우도 (maximum likelihood) 기반의 잔향 시간 추정에 의해 maximum a posteriori (MAP) 확률이 계산되고, 이를 이용하여 가장 큰 확률을 갖는 두 개의 심화신경망이 선택된다. 그리고 최대 우도를 가중치로 사용하는 가중 평균법 (weighted average)으로 두 심화신경망의 사후 확률 (posterior probability)을 결합한다. 이렇게 최종적인 사후 확률로 각 프레임에 해당하는 음소를 결정하는 음향 모델이 구성된다. 제안한 방법은 실제 환경을 추정하여 최적의 모델을 구성할 수 있도록 한다. 이 방법이 기존의 심화신경망 시스템에 비해 다양한 잔향환경에서 향상된 음성 인식 정확도를 보인다는 것을 광범위한 실험을 통하여 증명한다.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/125576http://hanyang.dcollection.net/common/orgView/200000487035
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > ELECTRONICS AND COMPUTER ENGINEERING(전자컴퓨터통신공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE