Repository at Hanyang University: XLM-Roberta 기반 한국어 기계독해 기법

Browse

My Repository

Repository at Hanyang UniversityGRADUATE SCHOOL OF ENGINEERING[S](공학대학원)ELECTRICAL ENGINEERING AND COMPUTER SCIENCE(전기ㆍ전자ㆍ컴퓨터공학과)Theses (Master)

1319 0

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	조인휘	-
dc.contributor.author	윤성운	-
dc.date.accessioned	2020-08-28T17:05:23Z	-
dc.date.available	2020-08-28T17:05:23Z	-
dc.date.issued	2020-08	-
dc.identifier.uri	https://repository.hanyang.ac.kr/handle/20.500.11754/153286	-
dc.identifier.uri	http://hanyang.dcollection.net/common/orgView/200000438303	en_US
dc.description.abstract	SQuAD1.0가 공개되면서 기계독해(Machine Reading Comprehension)가 많은 주목을 받기 시작했다. 기계독해(Machine Reading Comprehension)란 기계가 주어진 입력 받은 문단을 읽고 분석하여 관련된 질의에 답을 찾아 답을 하는 시스템이다. 국내에서도 2018년 LG CNS에서 한국어로 된 SQuAD1.0을 벤치마크 한 KorQuAD1.0 공개 후 AI 전문 업체를 중심으로 기계독해에 대한 연구가 진행되고 있지만, 한국어 위키 데이터 사전 학습은 매우 많은 리소스가 필요하여 개인이나 중소기업에서는 수행이 어렵다. 최근 다국어를 사전 학습한 사전 학습 모델이 발표되면서, NLP 성능이 많이 향상시켰는데 대표적인 다국어 지원 모델로 mBERT, XLM이 있다. 두 모델은 Cross-Lingual Understanding 분야에서 SOTA(State-of-the-art)를 이루었지만, 학습 데이터 제한과 다국어 지원에 따른 어휘 희석 문제점에 보완 필요성이 확인되었다. XLM-Roberta는 학습 데이터를 Wikipedia 대신 정제된 CC(CommonCrawl)로 학습하여 데이터 제한 및 다국어 희석 문제를 해결하였다. 본 논문은 한국어 기계독해 성능의 향상을 위해서 다국어 사전 학습 모델 XLM-Roberta를 사용하고 출력층에 문맥 정보 관계 분석을 위해 SRU(Simple Recurrent Unit)를 사용한다. 그리고 한국어 교착어 특징의 문제점을 해결하고자 형태소 분석기 추가한 모델을 제안한다. 실험 결과, 본 논문에서 제안한 방법을 한국어 기계독해 데이터셋 KorQuAD1.0 개발셋에 적용하여 사전학습 모델 XLM-Roberta에 출력 층에 SRU 레이어를 사용하고 형태소 분석기 카이로 조사를 제거한 예측 결과 최대 EM 83.01%, F1 93.34%의 성능을 보였다.	-
dc.publisher	한양대학교	-
dc.title	XLM-Roberta 기반 한국어 기계독해 기법	-
dc.type	Theses	-
dc.contributor.googleauthor	윤성운	-
dc.sector.campus	S	-
dc.sector.daehak	공학대학원	-
dc.sector.department	전기ㆍ전자ㆍ컴퓨터공학과	-
dc.description.degree	Master	-

Appears in Collections:: GRADUATE SCHOOL OF ENGINEERING[S](공학대학원) > ELECTRICAL ENGINEERING AND COMPUTER SCIENCE(전기ㆍ전자ㆍ컴퓨터공학과) > Theses (Master)

Files in This Item:

Export: RIS (EndNote); XLS (Excel); XML

Show simple item record

qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

한양대학교 리포지터리는 국립중앙도서관 OAK 보급사업으로 구축되었습니다. Feedback 개인정보처리방침

BROWSE