Repository at Hanyang University: 셀프 어텐션과 토픽 모델링을 활용한 문서 요약 기법 연구

Browse

My Repository

Repository at Hanyang UniversityGRADUATE SCHOOL[S](대학원)BUSINESS INFORMATICS(비즈니스인포매틱스학과)Theses (Master)

1085 0

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	김종우	-
dc.contributor.author	김현건	-
dc.date.accessioned	2020-02-11T03:07:15Z	-
dc.date.available	2020-02-11T03:07:15Z	-
dc.date.issued	2020-02	-
dc.identifier.uri	https://repository.hanyang.ac.kr/handle/20.500.11754/123427	-
dc.identifier.uri	http://hanyang.dcollection.net/common/orgView/200000437452	en_US
dc.description.abstract	최근 인터넷의 발달과 스마트폰의 대중화로 데이터 수가 폭발적으로 증가하게 되었으며, 장소와 시간에 관계없이 텍스트로 작성된 정보들을 언제, 어디서나 쉽게 찾아 볼 수 있게 되었다. 방대해진 정보의 양 만큼이나 얻을 수 있는 정보는 많아지고 있지만 이와 비례하여 불필요한 정보도 함께 증가 하게 되었으며 역설적이게도 데이터가 너무 방대해진 만큼이나 필요한 정보만을 취득하기 어려워졌다. 이에 따라, 텍스트에 대한 양은 줄이면서 필요한 정보는 유지하는 문서 요약 연구에 대한 필요성이 증가하고 있다. 문서 요약은 크게 추출 요약과 생성 요약으로 구분 된다. 추출 요약은 실제 문서에서 작성된 가장 중요한 문장을 가져와 요약하는 방식이며 생성 요약은 이와 대조적으로 문서를 요약 할 때 실제 문서 상에 있는 문장을 가져오지 않고 문서의 내용을 토대로 요약문을 재구성하여 요약하는 방식이다. 추출 요약에서 가장 많이 활용되는 알고리즘은 그래프 기반의 순위화 알고리즘인 텍스트랭크다. 기존 연구들은 텍스트랭크 알고리즘 그래프에 가중치를 부여할 때 TF-IDF를 활용한 워드 임베딩 방식에 국한되어 있으며, 텍스트랭크를 통하여 문서에서 요약문을 다중으로 추출할 경우 요약문들이 중복되는 단어들이 많이 포함되어 비슷한 의미를 가지는 문장으로만 문서가 요약되는 한계점이 있었다. 본 연구에서는 기존 텍스트랭크가 가지는 한계점을 개선하기 위하여 워드 임베딩 방식으로 Word2Vec를 활용하였으며, 셀프 어텐션과 토픽 모델링을 활용하여 문서 전체적인 내용을 고려하여 요약문을 추출 할 수 있도록 하였다. 본 연구에서 제안하는 모델이 한국어와 영어 문서 모두 요약 모델의 평가 지표인 ROUGE-1, ROUGE-2, ROUGE-L에서 더 우수한 성능을 보이는 것을 확인 할 수 있었으며 범용성 또한 확인 할 수 있었다.	-
dc.publisher	한양대학교	-
dc.title	셀프 어텐션과 토픽 모델링을 활용한 문서 요약 기법 연구	-
dc.title.alternative	A Study on Document Summarization Using Self-Attention and Topic Modeling	-
dc.type	Theses	-
dc.contributor.googleauthor	김현건	-
dc.contributor.alternativeauthor	Kim, Hyeon Geon	-
dc.sector.campus	S	-
dc.sector.daehak	대학원	-
dc.sector.department	비즈니스인포매틱스학과	-
dc.description.degree	Master	-

Appears in Collections:: GRADUATE SCHOOL[S](대학원) > BUSINESS INFORMATICS(비즈니스인포매틱스학과) > Theses (Master)

Files in This Item:

Export: RIS (EndNote); XLS (Excel); XML

Show simple item record

qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

한양대학교 리포지터리는 국립중앙도서관 OAK 보급사업으로 구축되었습니다. Feedback 개인정보처리방침

BROWSE