Pyramid VQ를 이용한 AMR-WB+ 코덱 내 TCX 모듈의 성능 개선에 관한 연구
- Title
- Pyramid VQ를 이용한 AMR-WB+ 코덱 내 TCX 모듈의 성능 개선에 관한 연구
- Author
- 박상국
- Alternative Author(s)
- Park, Sang-Kuk
- Advisor(s)
- 강상원
- Issue Date
- 2007-08
- Publisher
- 한양대학교
- Degree
- Master
- Abstract
- 32kbps 이하의 저속에서 음성 및 음악 신호를 효과적으로 처리할 수 있는 통합 코덱의 필요성이 제기되고 있다. 현재와 같이 음성 또는 음악과 같은 단일 콘텐츠를 처리하는 코덱은 이동통신에서의 음성 통신, MP3 재생기와 같은 음악 재생기에서 각각 매우 효과적으로 사용되고 있으나, 앞으로 방송과 통신의 융합으로 보다 다양한 콘텐츠의 전송이 요구되고, 또한 공중 채널의 근본적인 용량 한계로 인하여 저속 전송이 불가피하게 되었다. 이를 해결하기 위하여 음성 및 음악 신호를 통합적이고 효율적으로 처리할 수 있는 저속 코딩 기술이 필요하게 되었고, 이에 따라 AMR-WB+ 코덱과 EAAC+ 코덱이 등장하게 되었다. 그러나 현재의 State-of-Art 기술인 AMR-WB+ 코덱과 EAAC+ 코덱은 서로 상반되는 장단점을 가지고 있으며 아직 두 코덱 모두 원하는 최고의 성능을 제공하지 못하고 있다. 특히, AMR-WB+ 코덱은 AAC+ 코덱에 비해 음성 품질은 우수하나, 음악 품질은 24kbps 부근의 전송속도에서 성능이 떨어진다. 본 논문에서는 해당 전송속도에서 AMR-WB+ 코덱의 음악 품질을 개선함으로써, AMR-WB+ 코덱을 기반으로 하는 음성 및 음악 통합 코덱을 개발한다.
AMR-WB+ 코덱의 음악 품질을 개선하기 위해서는 음악 입력 신호들에 대해 동작되는 TCX 모듈의 성능을 향상시켜야 한다. 이를 위하여, 본 논문에서는 TCX 모듈 변환계수의 통계적 특성을 분석하여 변환계수가 laplacian 분포를 이룸을 알았고 이에 적합한 pyramid VQ(PVQ)를 도입하여 변환계수의 양자화 성능을 개선함으로써 궁극적으로 AMR-WB+ 코덱의 음악 성능을 향상시킨다.
TCX모듈 변환계수 양자화기로 제안한 PVQ 양자화기는 피라미드의 표면상에 존재하는 큐빅 격자점들을 코드워드로 사용하는 일종의 격자 양자화 방식으로서, 코드북을 저장할 필요가 없으므로 메모리가 요구되지 않으며, 벡터 차수가 증가할수록 부호화의 복잡도가 선형적으로 증가하는 특성을 가지고 있으므로, 적은 계산량으로 입력 벡터 전체를 양자화 할 수 있다. 또한 laplacian 분포를 갖는 신호에 최적의 성능을 제공한다.
본 논문에서는 전송 속도를 24kbps로 고정하였고, 코어 코덱의 성능만을 평가하기 위해 모노 입력을 사용하였으며, 전형적인 음악 신호에 대해 AMR-WB+의 수퍼프레임은 대부분 TCX1024 모드로 동작하기 때문에 1024-샘플 TCX 모드의 성능 개선에 초점을 맞추었다.
표준 AMR-WB+ 코덱의 TCX 모듈 양자화기로 사용되는 RE8 Lattice VQ 방식과는 달리 PVQ 방식은 프레임 내 서브벡터들에 대한 비트할당 계산을 필요로 한다. 이와 같은 비트 할당을 위해 본 논문은 에너지 기반 비트할당 방식과 심리음향모델 II를 이용한 비트할당 방식의 두 가지 방식을 이용한 PVQ 양자화기를 구현하였다.
제안된 PVQ의 성능 평가는 TCX1024 모듈 내 변환계수 양자화기 입출력 신호간의 MSE 값과 TCX1024 모듈의 입출력 신호간의 PEAQ 값에 의해 이루어졌다. 평가를 위한 훈련 및 테스트 샘플로 european broadcasting union(EBU)에서 제공하는 sound quality assessment material(SQAM) 중 72개의 음악 샘플들을 사용하였다. 먼저, 에너지 기반 비트할당 방식을 이용한 8차 및 16차 PVQ 방식은 표준 방식인 8차 RE8 Lattice VQ에 비해 MSE값이 각각 4.4% 및 6% 개선되었고, PEAQ값은 각각 3.8% 및 4.2% 개선되었다. 그리고, 심리음향모델 II에 기반한 비트할당 방식을 이용한 8차 PVQ 방식은 표준 방식인 8차 RE8 Lattice VQ에 비해 PEAQ 값이 1.3% 개선되었다.; In this paper, we propose the pyramid VQ(PVQ) to improve the TCX module of AMR-WB+ audio codec. The PVQ is a type of lattice quantizer, with the codewords selected as the cubic lattice points which lie on the surface of a pyramid. Hence, the PVQ does not require memory for the codebook storage and the encoding complexity increases linearly with vector dimension. For the memoryless laplacian source, the PVQ encoding performance is, for large dimension, equivalent to that of entropy-constrained scalar quantization. The PVQ requires bit-allocation for subvectors in frame. There are two bit-allocation methods: energy-based bit-allocation and psychoacoustic model Ⅱ-based bit-allocation. The proposed PVQ using energy-based bit-allocation is compared to the RE8 Lattice VQ used in the AMR-WB+ standard codec, demonstrating improvement 4.4% in mean squared error(MSE) and 3.8% in perceptual evaluation of audio quality(PEAQ) The proposed PVQ using psychoacoustic model Ⅱ-based bit-allocation is also compared to the RE8 Lattice VQ, demonstrating improvement 1.3% in PEAQ.
- URI
- https://repository.hanyang.ac.kr/handle/20.500.11754/148459http://hanyang.dcollection.net/common/orgView/200000406954
- Appears in Collections:
- GRADUATE SCHOOL[S](대학원) > ELECTRONIC,ELECTRICAL,CONTROL & INSTRUMENTATION ENGINEERING(전자전기제어계측공학과) > Theses (Master)
- Files in This Item:
There are no files associated with this item.
- Export
- RIS (EndNote)
- XLS (Excel)
- XML