103 0

복합 질의를 위한 비 구조화된 자료의 재사용 가능한 구조화 기법

Title
복합 질의를 위한 비 구조화된 자료의 재사용 가능한 구조화 기법
Other Titles
A Reusable Structural Method of Unstructured Data for Complex Queries
Author
주진웅
Alternative Author(s)
Ju, Jinung
Advisor(s)
최중민
Issue Date
2011-02
Publisher
한양대학교
Degree
Master
Abstract
웹에 존재하는 대부분의 데이터는 자연어로 작성된 것으로써 사람이 직접 해당 자료에 접근하여 유용한 정보를 도출해내고 재구성해야 비로소 재사용 가능한 정보로서의 가치를 지니게 된다. 정보 재구성의 필요성은 두 개 이상의 문서 혹은 정보 소스로부터 얻어진 결과를 종합해야 답변이 가능한 복합 질의(Complex Queries)의 경우에 더욱 극명하게 나타난다. 이러한 복합 질의를 처리하기 위해 질의와 관련된 여러 문서의 내용을 종합하여 하나의 요약된 문서를 생성하는 방법이 있다. 그러나 이는 단순히 주어진 다양한 질의 키워드를 포함하는 문서를 검색하고 해당 문서 집합들의 요약을 생성하는 데에 그 목적을 둔 것으로 실제 복합 질의에 대한 응답의 정확율이나 요약된 정보의 재사용에 대해서는 고려하지 않았다. 반면, 본 논문에서 제안하는 방법은 자연어로 작성된 비구조적인 자료가 관계 모델과 같은 형태로 구조화되어 관계형 데이터베이스(RDBMS)와 같은 구조화된 저장소에 저장되면 이를 SQL(Structured Query language)을 통해 필요한 정보를 쉽게 얻을 수 있고, 관리가 용이하며 재사용이 가능하다. 본 논문에서는 도시에 관한 정보의 구조화에 초점을 맞추어 각 도시에 대해 기술하는 웹 문서들을 수집하였다. 문장의 패턴 분석을 통해 도시의 인구, 면적, 기온, 강우량에 대한 정보를 수집하고, 이를 구조화하여 관계형 데이터베이스에 저장 후, SQL을 이용해 질의를 수행하였다. 또한 도시 정보를 포함하는 각 웹문서내의 문장들은 자연어로 표현되었고, 자연어는 그 특성상 문맥에 따라 다르게 해석될 수 있는 다의성을 지니기 때문에 문장 간 의미 불일치 문제를 야기할 수 있다. 이러한 문제를 해결하기 위해 본 논문은 Apriori 알고리즘을 이용하여 서로 다른 문장의 엔티티들이 같은 의미를 갖는 엔티티인지를 판단하고 필요하지 않은 데이터를 제거하는 기법을 제안한다. 시스템의 성능을 평가한 결과 다의어로 구성된 노이즈 데이터가 약 22% 포함되어 있는 데이터에 대한 복합 질의응답의 정확율은 평균 40% 이하의 낮은 성능을 나타내었으나 제안한 알고리즘을 통해 불필요한 데이터를 제거한 후 성능을 평가한 결과 평균 80% 이상의 정확율을 나타내었다.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/139743http://hanyang.dcollection.net/common/orgView/200000416353
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE & ENGINEERING(컴퓨터공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE