Evaluation of GCC-PHAT localization based on room acoustic parameters

건축음향 지표에 따른 다채널 선형 마이크로폰 어레이 기반 GCC-PHAT 음원위치추적 성능 평가
Seo Jong Gak
실시간으로 음원의 위치를 추적하기 위해 8 채널 마이크로폰 어레이를 구성하고 GCC-PHAT 함수를 주 알고리즘으로 하는 framework를 개발하여 공간의 용적과 잔향시간이 서로 다른 4개의 공간에서 direction of Arrival (DOA)를 측정하였다. 본 시스템의 성능은 백색소음에 대하여 SNR이 5 dB 이상일 때 3° 이하의 에러로 DOA가 추출되어 배경소음이 높은 실내환경에서의 사용가능성을 보였다. 또한 일반적으로 알려진 바와 같이 공간용적과 RT증가에 따라 음원위치추적 시스템의 정확도가 감소되는 것이 확인되었다. 그러나 강의실과 같이 상대적으로 잔향시간이 짧고 주변 가구와 벽체 등에 의한 초기반사음의 영향을 많이 받는 공간보다는 콘서트홀과 같이 잔향시간은 길지만 초기 반사면이 멀리 위치하고 있는 대공간에서 오히려 높은 DOA 정확도가 나타났다. 직접음 대비 20 dB이내의 강한 초기반사음들이 ±3.2°의 오차범위에서 형성될 때 음성의 요해도가 가장 크게 나타났다. 추가적으로 4개의 공간에서의 평가 결과를 통해 적은 연산량과 동일한 시간에 얻는 DOA 정보량을 추출하기 위하여 실시간 음원 분석 단위인 frame length가 5.8 ms일 때 가장 효과적임을 검증하였다.
An 8-channel microphone array was developed to track the location of a sound source in real time and the direction of arrival (DOA) was measured in four spaces with different space volumes and reverberation times (RTs) by developing a system that implements the GCC–PHAT function as the main algorithm. This system exhibited usability in indoor environments with high background noise as it extracted DOA with errors lower than 3° when the signal-to-noise ratio (SNR) was higher than 5 dB for white noise. In addition, as is generally known, the accuracy of a localization system decreases as the space volume and RT increase. However, large spaces such as concert halls in which the RT is high but the early reflective surface is far away exhibited higher DOA accuracy than spaces such as lecture rooms in which the RT is relatively low and the early reflections are significantly affected by nearby furniture and walls. Speech intelligibility was highest when strong early reflections within 20 dB (compared to the direct sound) were formed in the error range of ±3.2°. Furthermore, it was verified that the system was most effective when the frame length, which is a real-time sound source analysis parameter, was 5.8 ms to extract a small amount of operation and the amount of DOA information within the same time period through the evaluation results in the four spaces.
