706 0

Deep Neural Network-based Linear Predictive Parameter Estimations for Artificial Bandwidth Extension and Speech Enhancement

Title
Deep Neural Network-based Linear Predictive Parameter Estimations for Artificial Bandwidth Extension and Speech Enhancement
Other Titles
인공 대역 확장 위한 DNN 기반의 선형 예측 파라미터 추정과 음질 개선에 관한 연구
Author
YAXING LI
Advisor(s)
SANGWON KANG
Issue Date
2017-08
Publisher
한양대학교
Degree
Doctor
Abstract
Speech is vital for human communication. During the past several decades, most telecommunication systems have offered narrowband speech conversational services. Fortunately, artificial bandwidth extension could be introduced to produce better speech quality without changing the current telephony system. Furthermore, the presence of additive background noise severely degrades the performance of the speech communication systems, resulting in uncomfortable auditory perception. In order to reduce the effect of background noise, a speech enhancement can be performed. For the linear prediction coding-based speech coders at low rates, the quantization of Line Spectral Frequencies (LSF) parameters is a major issue. Multi-frame LSF quantization technique can be applied to the ultra low bit rate speech coding as well as other speech systems. Recently, deep neural networks (DNNs) have drawn the attention of many speech processing researchers. The main goals of this thesis are the performance improvement for the tasks of artificial bandwidth extension, speech enhancement and multi-frame LSF parameters quantization by modelling the speech linear predictive parameters using DNN. This thesis proposes a robust artificial bandwidth extension technique to improve narrowband speech signal quality using an enhanced spectrum envelope and excitation estimation. For envelope estimation, an enhanced envelope estimation method using a DNN with multiple layers is proposed. For excitation estimation, a whitened narrowband excitation signal that is generated by passing the excitation signal through a whitening filter is presented. An adaptive spectral double shifting method is introduced to obtain an enhanced wideband excitation signal. This thesis also presents a speech enhancement technique to improve noise corrupted speech via DNN-based linear predictive parameter estimations of speech and noise. With regard to the linear predictive coefficient estimation, an enhanced estimation method using a DNN with multiple layers is proposed. Excitation variances are then estimated via a maximum likelihood scheme using observed noisy speech and estimated linear predictive coefficients. A time-smoothed Wiener filter is further introduced to improve the enhanced speech quality. Furthermore, a combination of a deep autoencoder and pyramid vector quantizer (PVQ) is proposed for the quantization of multi-frame LSF parameters in this thesis. For the compression and de-correlation of multi-frame LSF parameters, a deep autoencoder possessing linear coder-layer units with Gaussian noise is used. To quantize the coder-layer vector effectively, a PVQ is considered. The deep autoencoder demonstrates a high degree of modelling flexibility for multi-frame LSF parameters. The proposed artificial bandwidth extension system is applied to the decoded output of an adaptive multi-rate (AMR) codec at 12.2 kbps. The enhanced spectrum envelope estimation using a DNN provides better performance than the conventional linear mapping and codebook mapping methods. The objective and subjective evaluations confirm that the proposed artificial bandwidth extension system provides better speech quality than AMR codec at the same bit rate. The proposed speech enhancement method could reduce the residual noise and the randomly fluctuating musical noise of enhanced speech significantly. The DNN yields better speech and noise envelopes estimation performance than the vector quantization driven method. The experimental results reveal that the proposed speech enhancement scheme outperforms competing methods. With regard to the proposed multi-frame LSF parameters quantization algorithm, the performance evaluation shows that it outperforms the combination of a discrete cosine model and multi-stage vector quantization. Also, the experiment shows that, at the same encoding rate of LSF parameters, the proposed algorithm affords better performance than that of the method in enhanced mixed excitation linear prediction (MELPe) codec at 1200 bps.; 음성은 의사소통을 위해서 필수적이다. 지난 수십 년 동안 대부분의 음성 통신 시스템은 협대역의 음성 통신 서비스를 제공했다. 뿐만 아니라 부가적인 배경잡음의 존재는 음성 통신 시스템의 성능을 심각하게 저하시키고, 불쾌한 청각 지각을 발생시켰다. 다행히 현재의 음성 통신 시스템을 변경하지 않고 인공 대역 확장을 도입 하여 더 나은 음성 품질을 제공할 수 있다. 그리고 음질 개선을 실시하여 배경 잡음의 영향을 줄일 수 있다. 선형 예측 코딩 기반의 저속 음성 코덱에서는 LSF(Line Spectral Frequencies) 파라미터 양자화가 중요한 문제다. 다중 프레임 LSF 파라미터 양자화 기술은 다른 음성 시스템뿐만 아니라 초 저속 음성 코딩에도 적용될 수 있다. 최근에는 DNN(deep neural networks)이 많은 음성 신호 처리 연구자들의 관심을 끌었다. 본 논문의 주요 목표는 DNN 기반의 음성 선형 예측 모델링을 통해서 인공 대역 확장, 음질개선 그리고 다중 프레임의 LSF 양자화의 성능을 개선하는 것이다. 본 논문에서는 협대역의 음질 개선을 위해 스펙트럼 포락선 강화와 여기 신호 추정을 이용하는 인공 대역 확장 기술을 제안한다. 먼저 포락선 추정을 위해서, 다중의 층 구조를 갖는 DNN을 사용하여 강화된 포락선 추정 방식을 제안한다. 그리고 여기 신호 추정을 위해서, 백색화 필터를 통해서 발생된 백색화 협대역 여기 신호를 제안한다. 강화된 광대역의 여기 신호를 얻기 위해서 적응 스펙트럼 더블 시프팅 방식을 도입한다. 본 논문에서는 DNN 기반의 선형 예측 파라미터 추정을 통해서 잡음환경에서 음성 신호의 음질 개선을 보여준다. 선형 예측 계수 추정에 관하여 다중의 구조를 갖는 DNN을 이용하여 강화된 추정 방식이 제안된다. 실측된 음성신호와 추정된 선형 예측 계수를 사용한 최대우도 분석을 통하여 여기 분산이 추정된다. 그리고 time-smoothed Wiener filter가 음질 개선을 위해 추가로 소개한다. 본 논문에서는 심층 오토 인코더와 PVQ(pyramid vector quantizer) 양자화 방식의 결합을 통한 멀티 프레임의 LSF 파라미터 양자화기를 제안한다. 멀티 프레임의 LSF파라미터 압축과 de-correlation를 위해서 가우시안 잡음 단위를 갖는 선형 부호화 계층의 심층 오토 인코더가 사용된다. 효율적인 부호화 계층 벡터 양자화를 위해서 PVQ 양자화기가 고려된다. 심층 오토 인코더는 멀티 프레임의 LSF 파라미터를 위한 고도의 modelling flexibility를 보여준다. 제안된 인공 대역 확장 시스템은 12.2 kbps AMR 코덱 복호화기의 출력에 적용한다. DNN을 이용한 강화된 스펙트럼 포락선 추정은 conventional 선형 맵핑 그리고 코드북 맵핑 방식보다 우수한 성능을 제공한다. 객관적 및 주관적 평가를 통해서 제안 된 인공 대역 확장 시스템이 동일한 비트율에서 AMR코덱보다 우수한 음질을 제공함을 확인했다. 제안된 방식은 잔여 잡음과 임의의 변동이 심한 음악적인 잡음을 상당히 감소시킬 수 있다. DNN은 벡터 양자화 방식보다 우수한 음성 및 잡음 포락선 추정 성능을 제공한다. 실험 결과는 제안된 음질 개선 방법이 다른 경쟁력 있는 방법보다 우수하다는 것을 보여준다. 제안된 다중 프레임 LSF 파라미터 양자화 알고리즘과 관련하여, 성능 평가는 제안된 알고리즘이 DCM(discrete cosine model)과 MSVQ(multi-stage vector quantization) 양자화기 결합의 방식보다 우수하다는 것을 보여준다. 또한 실험 결과는 같은 비트율에서 제안된 알고리즘의 LSF 파라미터 인코딩 성능이 1200bps 비트율의 MELPe 코덱이 사용하는 방식보다 우수하다는 것을 보여준다.
URI
http://hdl.handle.net/20.500.11754/33637http://hanyang.dcollection.net/common/orgView/200000430909
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > ELECTRONIC COMMUNICATION ENGINEERING(전자통신공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE