제 32 회 음성통신 및 신호처리 학술대회, v. 32, NO 1, Page. 172-174
Abstract
최근 원거리 음성인식을 위해 DS (Delay-sum) beamformer 를 사용하는 멀티 마이크 기반의 CNN (Convolutional neural network)이 제안되었고, 멀티 채널 음성신호를 CNN 에 병렬 입력으로 직접 사용하는 방법[1]과 비교되었다. 우리는 원거리 음성인식을 위한 음향모델에 이용되는 CNN 을 학습시키기 위한 전처리로 PMWF (Parameterized multichannel non-causal Wiener filter)를 사용하는 것에 대해 분석한다. 그리고 실험 결과를 통해 제안한 PMWF 기반의 CNN 방식이 crosschannel CNN 과 DS beamformer 보다 뛰어나다는 것을 보인다.