1085 0

Full metadata record

DC FieldValueLanguage
dc.contributor.advisor김종우-
dc.contributor.author김현건-
dc.date.accessioned2020-02-11T03:07:15Z-
dc.date.available2020-02-11T03:07:15Z-
dc.date.issued2020-02-
dc.identifier.urihttps://repository.hanyang.ac.kr/handle/20.500.11754/123427-
dc.identifier.urihttp://hanyang.dcollection.net/common/orgView/200000437452en_US
dc.description.abstract최근 인터넷의 발달과 스마트폰의 대중화로 데이터 수가 폭발적으로 증가하게 되었으며, 장소와 시간에 관계없이 텍스트로 작성된 정보들을 언제, 어디서나 쉽게 찾아 볼 수 있게 되었다. 방대해진 정보의 양 만큼이나 얻을 수 있는 정보는 많아지고 있지만 이와 비례하여 불필요한 정보도 함께 증가 하게 되었으며 역설적이게도 데이터가 너무 방대해진 만큼이나 필요한 정보만을 취득하기 어려워졌다. 이에 따라, 텍스트에 대한 양은 줄이면서 필요한 정보는 유지하는 문서 요약 연구에 대한 필요성이 증가하고 있다. 문서 요약은 크게 추출 요약과 생성 요약으로 구분 된다. 추출 요약은 실제 문서에서 작성된 가장 중요한 문장을 가져와 요약하는 방식이며 생성 요약은 이와 대조적으로 문서를 요약 할 때 실제 문서 상에 있는 문장을 가져오지 않고 문서의 내용을 토대로 요약문을 재구성하여 요약하는 방식이다. 추출 요약에서 가장 많이 활용되는 알고리즘은 그래프 기반의 순위화 알고리즘인 텍스트랭크다. 기존 연구들은 텍스트랭크 알고리즘 그래프에 가중치를 부여할 때 TF-IDF를 활용한 워드 임베딩 방식에 국한되어 있으며, 텍스트랭크를 통하여 문서에서 요약문을 다중으로 추출할 경우 요약문들이 중복되는 단어들이 많이 포함되어 비슷한 의미를 가지는 문장으로만 문서가 요약되는 한계점이 있었다. 본 연구에서는 기존 텍스트랭크가 가지는 한계점을 개선하기 위하여 워드 임베딩 방식으로 Word2Vec를 활용하였으며, 셀프 어텐션과 토픽 모델링을 활용하여 문서 전체적인 내용을 고려하여 요약문을 추출 할 수 있도록 하였다. 본 연구에서 제안하는 모델이 한국어와 영어 문서 모두 요약 모델의 평가 지표인 ROUGE-1, ROUGE-2, ROUGE-L에서 더 우수한 성능을 보이는 것을 확인 할 수 있었으며 범용성 또한 확인 할 수 있었다.-
dc.publisher한양대학교-
dc.title셀프 어텐션과 토픽 모델링을 활용한 문서 요약 기법 연구-
dc.title.alternativeA Study on Document Summarization Using Self-Attention and Topic Modeling-
dc.typeTheses-
dc.contributor.googleauthor김현건-
dc.contributor.alternativeauthorKim, Hyeon Geon-
dc.sector.campusS-
dc.sector.daehak대학원-
dc.sector.department비즈니스인포매틱스학과-
dc.description.degreeMaster-
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > BUSINESS INFORMATICS(비즈니스인포매틱스학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE