341 0

영한 기계번역에서 명사 대역어 선택을 위한 2단계 방법

Title
영한 기계번역에서 명사 대역어 선택을 위한 2단계 방법
Other Titles
Two Level Method for Selecting Target Word for Noun in English-Korean Machine Translation
Author
이기영
Alternative Author(s)
Lee, Ki-Young
Advisor(s)
김한우
Issue Date
2007-02
Publisher
한양대학교
Degree
Doctor
Abstract
많은 영어 어휘들이 사용되는 문맥에 따라 다양한 한국어 어휘로 번역될 수 있는 대역어 선택 모호성을 지닌다. 특히 이러한 대역어 선택 모호성은 자주 사용되는 고빈도 어휘일수록 증가하는 경향이 있다. 따라서 영어 원문이 갖는 의미를 손실 없이 한국어 번역문으로 전달하기 위해서는 해당 어휘가 사용된 문맥을 고려하여 올바른 한국어 대역어를 사용하여 번역해야 한다. 이러한 이유로 대역어 선택은 영한 기계번역에서 가장 중요하고도 어려운 작업 중의 하나이며, 기계번역 시스템의 평가에 있어서 변환 및 생성 모듈의 성능 뿐 아니라 기계번역 시스템의 전체 번역률과 번역 품질을 결정하는 매우 중요한 요소이다. 본 논문에서는 영한 기계번역에 있어서, 영어 어휘가 갖는 의미 모호성을 해소한 후에 최적의 한국어 대역어를 선택하는 두 단계로 구성된 자연스러운 대역어를 선택하는 방안을 제시한다. 의미 벡터, 동사구 패턴, 공기 품사 정보 및 한국어 로컬 문맥 정보 등의 다양한 지식이 대역어 선택 모호성을 해소하기 위해 사용된다. 의미 벡터는 영한 병렬 코퍼스로부터 구축되며, 모호성 어휘가 임의의 공기 어휘와 함께 사용될 때 모호성 어휘가 가질 수 있는 의미에 대한 조건부 확률값들로 구성된다. 의미 벡터는 동사구 패턴과 함께 모호성 어휘의 의미를 결정하는 역할을 한다. 동사구 패턴은 사전과 코퍼스를 사용하여 구축되며, 공기 어휘 정보의 데이터 부족(data sparseness) 문제를 보완하는 동시에 모호성 어휘가 동사의 논항 자리에 위치한 헤드 명사인 경우 그 의미를 결정하는 중요한 역할을 한다. 한국어 로컬 문맥 정보는 한국어 코퍼스로부터 추출된 매우 좁은 윈도우 내에서의 바이그램(bigram) 정보이다. 한국어 로컬 문맥 정보는 모호성 어휘의 의미가 결정된 후에 해당 의미를 갖는 유사 대역어 집합(synonym set) 내의 대역어 후보들 중에서 생성될 한국어 문맥에 어울리는 최적의 한국어 대역어를 결정하기 위해 사용된다. 마지막으로 공기 품사 정보는 대역어 선택 모호성을 지니는 영어 어휘와 통계적으로 깊은 관련성을 지니는 품사로서, 적용 가능한 어휘의 수가 적지만, 모호성 어휘의 대역어를 결정하는데 있어서 매우 강력한 클루가 된다. 코퍼스 기반 지식 획득에 있어서 대표적 문제점은 데이터 부족 문제이며, 본 논문에서 제안하는 대역어 선택 방법 역시 코퍼스 기반 방법으로서 데이터 부족 문제가 발생한다. 특히, 문장 단위의 정렬이 이루어진 병렬 코퍼스로부터 의미 벡터를 구축할 때, 병렬 코퍼스가 갖는 특성으로 인해 데이터 부족 문제가 발생한다. 본 논문에서는 이러한 데이터 부족 문제를 해결하기 위해 비교 가능 코퍼스(comparable corpus)를 사용하여 신뢰성 있는 공기 어휘 통계 정보를 추출하는 방안에 대해서도 논한다. 마지막으로 본 논문에서 제안한 대역어 선택 모호성 해소 방안을 평가하기 위한 실험을 수행하였으며, 실험 결과, 제안하는 대역어 선택 방법이 보다 자연스러운 대역어를 선택하며, 영한 기계번역 시스템의 번역률 향상에 많은 기여를 한다는 것을 확인할 수 있었다.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/149472http://hanyang.dcollection.net/common/orgView/200000406233
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE & ENGINEERING(컴퓨터공학과) > Theses (Ph.D.)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE