1319 0

Full metadata record

DC FieldValueLanguage
dc.contributor.advisor조인휘-
dc.contributor.author윤성운-
dc.date.accessioned2020-08-28T17:05:23Z-
dc.date.available2020-08-28T17:05:23Z-
dc.date.issued2020-08-
dc.identifier.urihttps://repository.hanyang.ac.kr/handle/20.500.11754/153286-
dc.identifier.urihttp://hanyang.dcollection.net/common/orgView/200000438303en_US
dc.description.abstractSQuAD1.0가 공개되면서 기계독해(Machine Reading Comprehension)가 많은 주목을 받기 시작했다. 기계독해(Machine Reading Comprehension)란 기계가 주어진 입력 받은 문단을 읽고 분석하여 관련된 질의에 답을 찾아 답을 하는 시스템이다. 국내에서도 2018년 LG CNS에서 한국어로 된 SQuAD1.0을 벤치마크 한 KorQuAD1.0 공개 후 AI 전문 업체를 중심으로 기계독해에 대한 연구가 진행되고 있지만, 한국어 위키 데이터 사전 학습은 매우 많은 리소스가 필요하여 개인이나 중소기업에서는 수행이 어렵다. 최근 다국어를 사전 학습한 사전 학습 모델이 발표되면서, NLP 성능이 많이 향상시켰는데 대표적인 다국어 지원 모델로 mBERT, XLM이 있다. 두 모델은 Cross-Lingual Understanding 분야에서 SOTA(State-of-the-art)를 이루었지만, 학습 데이터 제한과 다국어 지원에 따른 어휘 희석 문제점에 보완 필요성이 확인되었다. XLM-Roberta는 학습 데이터를 Wikipedia 대신 정제된 CC(CommonCrawl)로 학습하여 데이터 제한 및 다국어 희석 문제를 해결하였다. 본 논문은 한국어 기계독해 성능의 향상을 위해서 다국어 사전 학습 모델 XLM-Roberta를 사용하고 출력층에 문맥 정보 관계 분석을 위해 SRU(Simple Recurrent Unit)를 사용한다. 그리고 한국어 교착어 특징의 문제점을 해결하고자 형태소 분석기 추가한 모델을 제안한다. 실험 결과, 본 논문에서 제안한 방법을 한국어 기계독해 데이터셋 KorQuAD1.0 개발셋에 적용하여 사전학습 모델 XLM-Roberta에 출력 층에 SRU 레이어를 사용하고 형태소 분석기 카이로 조사를 제거한 예측 결과 최대 EM 83.01%, F1 93.34%의 성능을 보였다.-
dc.publisher한양대학교-
dc.titleXLM-Roberta 기반 한국어 기계독해 기법-
dc.typeTheses-
dc.contributor.googleauthor윤성운-
dc.sector.campusS-
dc.sector.daehak공학대학원-
dc.sector.department전기ㆍ전자ㆍ컴퓨터공학과-
dc.description.degreeMaster-


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE