452 0

한국어-중국어 인공신경망 기계번역 성능 최적화를 위한 언어사전 구성의 단위 비교

Title
한국어-중국어 인공신경망 기계번역 성능 최적화를 위한 언어사전 구성의 단위 비교
Other Titles
Comparative Analysis of Vocabulary Dictionary Unit for Korean-Chinese Neural Machine Translation
Author
임효진
Alternative Author(s)
Lim, Hyo Jin
Advisor(s)
조인휘
Issue Date
2018-08
Publisher
한양대학교
Degree
Master
Abstract
인공신경망 기계번역(Neural Machine Translation:NMT)은 기계 번역에 인공신경망을 적용하여 출발어에서 도착어로의 번역을 학습 및 실행하는 딥러닝 모델이다. 본 논문에서는 한국어-중국어간 기계번역에서 Out-of-vocabulary(OOV) 문제를 해결하기 위한 언어사전 구성 단위의 조합별 번역 성능을 비교하였다. 이를 통해 word unit이 성능에 미치는 영향을 알아보고 최적 조합을 탐색하였다. 한국어 word unit은 어절, 형태소, 문자로 정의하였고, 중국어 word unit은 .단어, 문자로 정의하여 각각의 단어사전을 구축하였다. 한국어 언어사전 3가지, 중국어 언어사전 2가지의 조합인 6개 모델의 최적조합을 비교하였으며, 출발어와 도착어의 순서를 바꾸어 한-중 번역모델과 중-한 번역모델을 구분하여 비교하는 연구가 진행되었다. 번역 모델로는 RNN 알고리즘을 기반으로 Encoding-Decoding 모델을 이용하여 학습을 진행하였다. 정의된 unit별로 vocabulary 사전을 최대 5,710 크기로 인덱싱하고, 문장의 길이 별로 bucketing하여 각 모델을 따로 생성하여 번역 성능을 높였다. 평가지표로는 BLEU(Bilingual Evaluation Understudy) 점수를 이용하여 정량적으로 평가 및 비교를 수행하였다. 연구 결과 한-중 번역시 한국어는 문자, 중국어는 단어로 전처리할 때, 중-한 번역시 중국어는 단어, 한국어는 형태소로 전처리할 때 가장 좋은 번역 성능을 보이는 것으로 확인되었다. 또한 중-한 번역에 비해 한-중 번역의 성능이 높았다. 연구를 통해 인공신경망 기계번역을 위한 언어사전 구축시 언어의 특성을 반영한 단어 사전 구축이 번역 모델의 성능을 개선하는데 도움이 된다는 결론을 얻었다.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/75283http://hanyang.dcollection.net/common/orgView/200000434121
Appears in Collections:
GRADUATE SCHOOL OF ENGINEERING[S](공학대학원) > ELECTRICAL ENGINEERING AND COMPUTER SCIENCE(전기ㆍ전자ㆍ컴퓨터공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE