471 0

Statistical Model and Deep Q-Network-based pre-processing for Robust Speech Recognition

Title
Statistical Model and Deep Q-Network-based pre-processing for Robust Speech Recognition
Author
박태준
Alternative Author(s)
박태준
Advisor(s)
장준혁
Issue Date
2021. 8
Publisher
한양대학교
Degree
Doctor
Abstract
The quality of speech recognition is often degraded by many types of background noise, causing significant degradation of performance in speech recognition platform. Pre-processing algorithms such as voice activity detection (VAD) and noise suppression (NS) in enhancing the corrupted speech signal are considered. An important task of pre-processing algorithms for speech recognition is to estimate the desired speech signals and reduce the background noise. In order to make these systems robust to work well under the noisy environments, pre-processing algorithms of speech signals are needed. Pre-processing of speech signals is considered a crucial step in the development for robust speech recognition systems. Among pre-processing algorithms, VAD and NS have attracted significant research interests in the past several decades to improve the performance of speech recognition systems used in conditions with various types of ambient noise. Improving the quality of speech signals, NS commonly aims at estimating the clean speech signals or reducing the background noise from the recorded noisy speech signal corrupted by the various noises. Although the NS technique is found to be very helpful in tasks such as speech recognition, there are various kinds of noise, which often causes serious degradation of recognition performance. It is hence very crucial that the speech recognition exhibits a robust performance across ambient noises and will benefit many speech technology applications. Recent study performing denoising in a supervised fashion uses a multi-layer perceptron to learn mapping from acoustic features to grouping cues that encode the posterior probability of a time-frequency (T-F) unit being speech dominant given the noisy observation. The mapping results in a binary mask that is used to preserve the speech dominant one in the T-F unit. Deep neural network (DNN) is employed to estimate the ideal binary mask, where binaural and monaural features are used to train the DNN. It is recently found that performing T-F masking in the complex domain is very beneficial to jointly enhance the magnitude and phase response of noisy speech by estimating the complex ideal ratio mask in the real and imaginary domains. In this regard, this thesis presents enhanced statistical model and deep Q-network-based pre-processing for robust speech recognition. In the first part of this thesis, we propose to combine the posterior probabilities of voice activity derived from different statistical model-based algorithms for enhanced VAD. For this, the Dempster-Shafer (DS) theory of evidence is employed to represent and combine the different probabilities estimated by three different statistical model-based VAD algorithms including the Sohn's likelihood ratio test (LRT)-based method, smoothed LRT-based method, and multiple observation LRT-based method. By considering a generalization of the Bayesian framework and permitting the characterization of uncertainty and ignorance through the DS theory, the probability of an ignorant state is eliminated through the orthogonal sum of several speech presence probabilities, which results in the performance improvement when detecting voice activity. According to objective test results, it is discovered the proposed DS theory-based VAD method offers significant improvements over the conventional approaches. In the second part of this thesis, we propose the deep Q-network (DQN)-based NS for robust speech recognition purposes under ambient noise. We thus design a reinforcement algorithm that combines DQN training with a DNN to let reinforcement learning (RL) work for complex and high dimensional environments like speech recognition. For this, we elaborate on the DQN training to choose the best action that is the quantized noise suppression gain by the observation of noisy speech signal with the rewards of DQN including both the word error rate (WER) and objective speech quality measure. Experiments demonstrate that the proposed algorithm improves speech recognition in various noisy conditions while reducing the computational burden compared to the DNN-based noise suppression method.|음성인식의 품질은 종종 다양한 유형의 배경 소음으로 인해 저하되며, 이는 음성 인식 플랫폼의 성능을 크게 저하시킨다. 음성검출기 및 잡음억제와 같은 전처리 알고리즘이 손상된 음성 신호를 향상시키는데 고려된다. 음성인식을 위한 전처리 알고리즘의 중요한 작업은 원하는 음성신호를 추정하고 배경소음을 줄이는 것이다. 이러한 시스템을 시끄러운 환경에서 잘 작동하도록 견고하게 만들기 위해서는 음성신호의 전처리 알고리즘이 필요하다. 음성신호의 전처리는 강력한 음성 인식 시스템 개발에서 중요한 단계로 간주된다. 전처리 알고리즘 중에서 음성검출기 및 잡음억제는 다양한 유형의 주변 소음이 있는 조건에서 사용되는 음성인식 시스템의 성능을 개선하기 위해 지난 수십 년 동안 상당한 연구 관심을 끌었다. 음성신호의 품질을 향상시키는 잡음억제는 일반적으로 깨끗한 음성신호를 추정하거나 다양한 잡음에 의해 손상된 잡음이 있는 음성신호의 배경 잡음을 줄이는 것을 목표로 한다. 잡음억제 기법은 음성인식과 같은 작업에 매우 도움이 되는 것으로 밝혀졌지만 다양한 종류의 노이즈가 존재하며 이는 종종 인식성능의 심각한 저하를 유발한다. 따라서 음성인식이 주변 소음 전반에 걸쳐 강력한 성능을 보여주고 많은 음성기술에 도움이 되는 것은 매우 중요하다. 감독된 방식으로 잡음억제를 수행하는 최근 연구에서는 다층 퍼셉트론을 사용하여 음향특성에서 잡음이 있는 환경에서 음성이 우세한 시간-주파수 단위의 사후 확률을 인코딩하는 범위까지 매핑을 통하여 학습한다. 매핑은 시간-주파수 단위에서 음성이 우세한 것을 보존하는 데 사용되는 이진 마스크를 생성한다. DNN (Deep Neural Network)은 이상적인 이진 마스크를 추정하는데 사용된다. 최근에는 복잡한 영역에서 시간-주파수 마스킹을 수행하는 것이 실제 및 가상 영역에서 복소의 이상적인 비율 마스크를 추정하여 잡음이 있는 음성의 크기와 위상 응답을 공동으로 향상시키는 데 매우 유익하다는 사실이 밝혀졌다. 이와 관련하여 이 논문은 강력한 음성 인식을 위한 향상된 통계 모델과 심층 Q- 네트워크 기반 전처리를 제시한다. 이 논문의 첫 번째 부분에서는 향상된 음성검출기를 위해 다양한 통계 모델 기반 알고리즘에서 파생된 음성 활동의 사후 확률을 결합할 것을 제안한다. 이를 위해 Dempster-Shafer (DS) 이론을 사용하여 손의 우도비 테스트 기반 방법, 평활화된 우도비 테스트 기반 방법, 다중 관측 우도비 테스트 기반 방법을 포함한 세 가지 통계 모델 기반 음성검출 알고리즘으로 추정된 서로 다른 확률을 결합한다. 베이지안 프레임 워크의 일반화를 고려하고 DS 이론을 통해 불확실성과 무지의 특성화를 허용함으로써 여러 음성 존재 확률의 직교 합을 통해 무지 상태의 확률을 제거하여 음성검출시 성능 향상을 가져온다. 객관적인 테스트 결과에 따르면 제안된 DS 이론 기반 음성검출 방법은 기존 접근 방식에 비해 개선된 성능을 제공한다. 이 논문의 두 번째 부분에서는 주변 소음에서 강인한 음성인식을 위해 DQN (deep Q-network) 기반 잡음억제를 제안한다. 따라서 우리는 DQN 훈련과 DNN을 결합한 강화학습 알고리즘을 설계하여 음성인식과 같은 복잡하고 높은 차원의 환경에서 강화학습이 작동 할 수 있도록 한다. 이를 위해 우리는 단어 오류율 (WER)과 객관적인 음성 품질 측정을 모두 포함하는 DQN의 보상을 설계하고, 잡음이 있는 음성신호를 관찰하여 양자화 된 잡음 억제 이득으로 구성된 최선의 행동을 선택하는 DQN 훈련에 대해 제안한다. 실험은 제안된 알고리즘이 DNN 기반 잡음억제 방법에 비해 계산 부담을 줄이면서 다양한 잡음조건에서 음성인식을 향상시키는 것을 보여준다.
URI
http://hanyang.dcollection.net/common/orgView/200000499252https://repository.hanyang.ac.kr/handle/20.500.11754/163651
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > ELECTRONICS AND COMPUTER ENGINEERING(전자컴퓨터통신공학과) > Theses (Ph.D.)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE