1652 0

딥러닝 기반의 음성 - 수화 번역 시스템 설계 및 구현

Title
딥러닝 기반의 음성 - 수화 번역 시스템 설계 및 구현
Other Titles
Design and Implementation of The Deep Learning-based Voice to Sign Language Translation System
Author
임현준
Alternative Author(s)
Yim, Hyun Jun
Advisor(s)
조인휘
Issue Date
2019-02
Publisher
한양대학교
Degree
Master
Abstract
본 논문에서는 청각장애인 커뮤니케이션을 위한 시스템에 관한 것으로, 청각장애인의 듣지 못하는 불편함을 해소하기 위해 수화를 모르는 일반인들과 의사소통 할 수 있도록 음성을 수화 3D 애니메이션으로 실시간으로 출력하는 시스템을 연구하였다. 수화 3D 애니메이션을 출력하는 시스템은 청각장애인이 수화통역사의 역할을 대신하여 청각장애인들에게 보다 많은 사회참여 기회를 제공할 수 있다. 표준 한글 수화를 활용하여 수화 사전을 구성하였다. 음성을 수화로 번역하기 위해 딥러닝 기반의 번역 시스템을 구현하였다. 음성을 텍스트로 변환하기 위해 Google Speech To Text를 사용하여 한국어로 변환하고 한국어의 형태소 분석을 위해 순차 레이블링에 특화된 LSTM 기반 모델을 사용하여 형태소 분석기를 구현하였다. 형태소 분석 결과를 수화로 변환하고 수화를 애니메이션으로 표현하기 위해 데이터베이스를 구축하였다. 실시간으로 3D 캐릭터를 수화 애니메이션으로 출력하기 위해 Unity 3D를 활용하여 구현하였다. Bidirectional LSTM CRF 모델을 적용한 형태소 분석기의 정확도는 92.1% 측정되었다. 4316개의 polygon과 texture, material, rigged, UV mapping을 사용하는 3D 캐릭터 모델을 사용하였고, 음성을 3D 애니메이션으로 화면에 출력하는데 약 700ms의 시간이 소요되었다.; In this paper, we studied systems for the communication of hearing-impaired people that produce voice in real time in sign 3D animation in order to communicate with ordinary people who do not know how to hear. A system that outputs sign language 3D animation may provide more social participation opportunities for deaf people in place of the role of a sign language interpreter. A sign language dictionary was organized using standard Korean sign language. A Deep Learning-based translation system was implemented to translate speech into sign language. Formal analyzer was implemented using LSTM-based models specialized in sequential labeling to translate speech into text and translate into Korean using Google Speech to Text. A database was constructed to convert the results of a morphology analysis into sign language and to animate the sign language. Unity 3D was used to animate 3D characters in real time. The accuracy of the morphological analyzer of the bidirectional LSTM CRF model was measured to be 92.1%. 4316 polygon, texture, material, rigid body and UV mapping 3D character model was used, and voice was taken about 700ms to display on 3D character animation.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/100016http://hanyang.dcollection.net/common/orgView/200000434967
Appears in Collections:
GRADUATE SCHOOL OF ENGINEERING[S](공학대학원) > ELECTRICAL ENGINEERING AND COMPUTER SCIENCE(전기ㆍ전자ㆍ컴퓨터공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE