260 0

논문 데이터베이스를 위한 텍스트 기반 유사도 계산 방안

Title
논문 데이터베이스를 위한 텍스트 기반 유사도 계산 방안
Author
김지수
Advisor(s)
김상욱
Issue Date
2012-08
Publisher
한양대학교
Degree
Master
Abstract
본 논문에서는 텍스트 기반 유사도 계산 방안을 기반으로 논문들 간의 유사도를 정확하게 계산하는 방안을 논의한다. 논문은 제목, 요약, 그리고 본문으로 구성되어 있으며, 텍스트 기반 유사도 계산에서 논문의 어느 부분의 단어들을 이용하여 유사도를 계산하는 가에 따라 유사도 계산 결과가 달라진다. 따라서 본 논문에서는 논문의 제목, 요약, 그리고 본문의 단어들 중 어떤 부분의 단어들을 이용하여 유사도를 계산하는 것이 정확한지를 실험을 통해서 확인한다. 또한, 두 부분의 단어들을 동시에 이용하기 위해서 실험을 통하여 각 부분에 적절한 가중치를 부여한다. 논문들 간의 유사도를 계산하기 위해서는 논문의 텍스트 정보가 필요하다. 그러나 논문 데이터베이스에는 저작권 문제와 크롤링과 파싱의 어려움 때문에 논문의 텍스트 정보가 손실되어 있다. 따라서 논문의 텍스트 정보 손실은 텍스트 기반 유사도 계산의 정확도를 감소시키는 문제가 일으킨다. 본 논문에서는 논문의 텍스트 정보 손실의 문제점을 보완하기 위해 유사도를 계산하고자하는 논문이 참조하거나 해당 논문을 참조하는 논문의 텍스트 정보를 이용하는 키워드 확장 방안을 제안한다. 실제 논문 데이터베이스를 대상으로 키워드 확장 방안과 기존 텍스트 기반 유사도 계산 방안으로 각각 유사도를 계산하고 해당 유사도의 정확도를 측정함으로써 키워드 확장 방안의 우수성을 검증한다.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/135959http://hanyang.dcollection.net/common/orgView/200000420106
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > ELECTRONICS AND COMPUTER ENGINEERING(전자컴퓨터통신공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE