201 0

심화 신경망을 이용한 시간-주파수 상관도 기반의 음성 검출기

Title
심화 신경망을 이용한 시간-주파수 상관도 기반의 음성 검출기
Other Titles
Time-Frequency Correlation-Based Voice Activity Detection Using Deep Neural Networks
Author
심재성
Alternative Author(s)
Sim, Jaeseong
Advisor(s)
장준혁
Issue Date
2016-08
Publisher
한양대학교
Degree
Master
Abstract
본 논문에서는 시간-주파수 간의 상관도를 가지는 음성 신호의 특성을 바탕으로 통계적 모델 기반의 우도비와 음향학적 모델 기반의 전력 스펙트럼 밀도를 추정하고 이를 기계 학습 분야의 심화 신경망과 결합한 강인한 음성 검출 기법을 제안한다. 음성 신호의 상관도를 고려하기 위하여 단구간 푸리에 변환을 통해 시간-주파수 영역을 나타내는 계수를 나타내고, 특정 시간-주파수 영역의 단일 푸리에 변환 계수에 대해 시간-주파수 상으로 이웃한 계수들을 포함한 벡터를 해당 시간-주파수 영역의 값으로 치환한다. 이를 통해 상관도가 고려된 기법은 연판정 기반의 음성 존재 확률과 더불어 이와 직접적으로 연관된 우도비를 단일 푸리에 변환 계수를 사용하여 추정된 기법보다 더욱 정확히 추정할 수 있다. 제안된 기법은 음성 신호의 상관도가 고려된 우도비 및 전력 스펙트럼 밀도를 추정하고, 이 둘을 다중 특징 벡터로 결합한다. 결합된 다중 특징 벡터는 최근 기계 학습 분야에서 뛰어난 성능의 분류기로서 알려진 심화 신경망의 입력 특징 벡터로 적용되며, 학습 과정을 거쳐 생성된 분류 모델을 통해 음성 활성여부를 판정하게 된다. 실험은 다양한 배경 잡음과 여러 신호 대 잡음비에서 기존의 음성 검출 기법과 제안된 음성 검출 기법을 비교하였다. 실험 결과는 상관도가 고려된 우도비와 전력 스펙트럼 밀도를 결합한 다중 특징 벡터를 심화 신경망과 결합한 제안된 음성 검출 기법이 기존의 음성 검출 기법과 비교하였으며 모든 배경 잡음 환경 및 신호 대 잡음비에서 음성 검출 성능을 대폭 개선시켰다. 특히 정상적인 특성을 갖는 잡음 환경에서는 제안된 기법의 시간-주파수 간 상관도가 고려된 정도에 따라 상관도가 많이 고려된 기법이 그에 비해 덜 고려된 기법과 비교하여 보다 높은 정확도의 음성 검출 성능을 이끌어 냈다.| In this thesis, we present a robust voice activity detection (VAD) algorithm that multiple features composed of the statistical model-based likelihood ratio (LR) and the acoustic feature-based power spectral density (PSD) taking the property of speech signals into consideration which has a correlation between time and frequency are fed into the input feature vectors of deep neural networks (DNN). In order to apply the correlation of speech signals to the proposed algorithm, we replace the coefficient of a certain time-frequency unit with the vector including the coefficients around neighboring that coefficient in the short time Fourier transform (STFT). This enables us to estimate accurately not only speech presence probability, but LR which is directly related with the probability using soft-decision scheme. The proposed algorithm has a learning process to classify the multiple features obtained by combining the LR vector with the PSD vector using the DNN structure which is known for a classifier due to its remarkable performance. Then, the generated classification model after the learning process makes a decision on whether it is voice activity or not. The experiments were carried out under various conditions, and the results demonstrate that the proposed VAD using DNN improved the performance of speech detection probability compared with the previous work.; In this thesis, we present a robust voice activity detection (VAD) algorithm that multiple features composed of the statistical model-based likelihood ratio (LR) and the acoustic feature-based power spectral density (PSD) taking the property of speech signals into consideration which has a correlation between time and frequency are fed into the input feature vectors of deep neural networks (DNN). In order to apply the correlation of speech signals to the proposed algorithm, we replace the coefficient of a certain time-frequency unit with the vector including the coefficients around neighboring that coefficient in the short time Fourier transform (STFT). This enables us to estimate accurately not only speech presence probability, but LR which is directly related with the probability using soft-decision scheme. The proposed algorithm has a learning process to classify the multiple features obtained by combining the LR vector with the PSD vector using the DNN structure which is known for a classifier due to its remarkable performance. Then, the generated classification model after the learning process makes a decision on whether it is voice activity or not. The experiments were carried out under various conditions, and the results demonstrate that the proposed VAD using DNN improved the performance of speech detection probability compared with the previous work.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/125572http://hanyang.dcollection.net/common/orgView/200000486921
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > ELECTRONICS AND COMPUTER ENGINEERING(전자컴퓨터통신공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE