478 0

딥러닝 기반 입모양 인식을 통한 음성 인식에 관한 연구

Title
딥러닝 기반 입모양 인식을 통한 음성 인식에 관한 연구
Other Titles
A Study on Speech Recognition through Deep Learning-Based Lipreading
Author
김세녕
Advisor(s)
류호경
Issue Date
2023. 2
Publisher
한양대학교
Degree
Master
Abstract
최근 인공지능이 급격히 발달하면서, 인공지능 기술을 통하여 입력 이미지 또는 오디오 신호에서 오디오 또는 시각적 특징을 추출하여 독순술(Lipreading)을 수행하는 여러 종단간 기계학습(End-to-End Deep Learning) 접근 방식이 최근에 제시되었다[1]. 그러나 종단간 기계학습을 통해 훈련된 모델에 대한 기존 작업은 문장 수준의 시퀀스 예측이 아닌 단어 분류만을 수행 하는 한계를 가지고 있어 성능 및 실용성 면에서의 다수의 제한점을 가지고 있다. 본 연구에서는 이러한 배경을 바탕으로 보다 우수한 성능을 가지면서 다양한 분야에 대한 활용성까지 갖춘 Transformer 기반의 시청각 한국어 Lipreading 딥러닝 시스템을 제안한다. 연구는 총 세 단계로 이루어진다. 첫 번째 단계에 서는 선행 연구 조사를 통한 현행 연구들의 제한점과 연구의 방향성을 도출한다. 두 번째 단계에서는 딥러닝 기반의 한국어 독순술 모델을 만들고 성능을 검증하기 위해 문장 발화 데이터를 수집하고 실험 데이터를 구축한다. 마지막 세 번째 단계에서는 수집한 데이터를 전처리하여 제안된 Transformer 모델에 적용시키는 과정을 다룬다. 최종적으로 구현한 모델의 성능을 노이즈 환경에서의 실험과 기존의 모델들과 비교를 통해 제안한 모델이 유의한 성능을 가지는지 확인한다. 결과는 제안된 딥러닝 모델을 사용하였을 때 실내 환경에서 WER 4.6% 노이즈 환경에서 30%의 우수한 정확도를 보였고 이는 제안한 시청각 기반의 딥러닝 모델이 Lipreading을 효과적으로 수행하면서 소음에도 강하다는 사실을 확인할 수 있다. 이는 Transformer 기반의 Lipreading 딥러닝 시스템이 음성인식을 비롯한 다양한 분야에 활용 가능하다는 점을 시사한다. |With the recent rapid development of artificial intelligence, several end-to-end deep learning approaches have recently been proposed to perform lipreading by extracting audio or visual features from input images or audio signals through artificial intelligence technology. However, existing work on models trained through end-to-end machine learning has limitations in performing word classification only, not sentence-level sequence prediction, which has a number of limitations in terms of performance and practicality. Based on this background, this study proposes an audiovisual Korean lipreading deep learning system based on Transformer with better performance and usability in various fields. The study consists of three stages in total. In the first step, the limitations of the current studies and the direction of the research are derived through previous research surveys. In the second step, we create a deep learning-based Korean reading model, collect sentence speech data, and build experimental data to verify performance. The final third step deals with the process of preprocessing the collected data and applying it to the proposed Transformer model. The performance of the finally implemented model is compared with experiments in noise environments and existing models to verify that the proposed model has significant performance. The results are as follows. When using the proposed deep learning model, we showed results of WER 4.6% in a noise-free environment. We showed excellent accuracy of 30% in noise-containing environments, which shows that the proposed audio-visual-based deep learning model is also noise-resistant while effectively performing lipreading. These results suggest that the Transformer-based lipreading deep learning system can be used in various fields including voice recognition.
URI
http://hanyang.dcollection.net/common/orgView/200000651286https://repository.hanyang.ac.kr/handle/20.500.11754/179820
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > DEPARTMENT OF INTELLIGENCE COMPUTING (인텔리전스컴퓨팅학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE