음성인식; 딥러닝; 발음사전; Automatic speech recognition; Deep learning; Lexicon; Kaldi
Issue Date
2019-09
Publisher
한국음향학회
Citation
한국음향학회지, v. 38, no. 5, Page. 601-606
Abstract
본 논문에서는 한국어 음성인식기 음향모델의 출력단위로 문자소를 제안한다. 제안하는 음성인식 모델은 한글을 G2P(Grapheme to Phoneme)과정 없이 초성, 중성, 종성 단위의 문자소로 분해하여 음향모델의 출력단위로 사용하며, 특별한 발음 정보를 주지 않고도 딥러닝 기반의 음향모델이 한국어 발음규정을 충분히 학습해 낼 수 있음을 보인다. 또한 기존의 음소기반 음성인식 모델과의 성능을 비교 평가하여 DB가 충분한 상황에서 문자소 기반 모델이 상대적으로 뛰어난 성능을 가진다는 것을 보인다. This paper is a study on speech recognition in the Korean using grapheme unit (Cho-sumg [onset], Jung-sung [nucleus], Jong-sung [coda]). Here we make ASR (Automatic speech recognition) system without G2P (Grapheme to Phoneme) process and show that Deep learning based ASR systems can learn Korean pronunciation rules without G2P process. The proposed model is shown to reduce the word error rate in the presence of sufficient training data.