107 0

웹 검색 엔진을 위한 중복문서 검색 알고리즘 분석 및 비교

Title
웹 검색 엔진을 위한 중복문서 검색 알고리즘 분석 및 비교
Other Titles
Analysis of Algorithms for Detecting the Blog-duplicate documents for the Web search engines.
Author
박희진
Keywords
웹검색엔진; 중복문서; 검색알고리즘
Issue Date
2011-11
Publisher
한국정보과학회 / KOREA INFORMATION SCIENCE SOCIETY
Citation
한국정보과학회 학술발표논문집,Vol.38 No.2A [2011],341-344(4쪽)
Abstract
블로그 환경에서는 대부분의 중복문서들이 부분 중복문서인 경우가 많으며, 앞서 실험해 본 결과 이러한 부분 중복문서들 중 대략 99%가 처음과 끝에서 조금 차이를 보이고 오직 1%만이 문서 중간에서 차이를 보였다. 이것을 찾아내는데 효율적인 알고리즘 중에 하나가 Central-match 알고리즘이다. 중복문서를 식별하는 것과 유사한 문제로는 원본문서 탐색문제(Origin detection problem)가 있다. 이 문제는 특정 문서가 들어오면, 이 문서는 주로 어느 문서에서 추출되었는지를 가리키는 문제이다. 이 문제에 대한 효율적인 알고리즘으로는 Hailstorm&BE 알고리즘이 있다. 우리는 원본문서 탐색문제에 사용되는 Hailstorm&BE 알고리즘이 블로그 환경에서 중복문서를 찾아내는 블로그 중복 식별문제도 효과적으로 해결할 수 있을 것으로 예상하였고, 이에 Hailstorm&BE 알고리즘을 중복문서를 식별할 수 있도록 변형, Central-match 알고리즘과 비교 분석하여 두 알고리즘 중 어느 알고리즘이 블로그 중복문서를 찾아내는데 더 적합한가를 실험해보았다. 그 결과, Hailstrom&BE 알고리즘이 원본문서 탐색문제뿐만 아니라 블로그 중복 식별문제에서도 효과적인 알고리즘이 될 수 있음을 보였다.
URI
http://www.dbpia.co.kr/Article/NODE01745013
ISSN
2466-0825
Appears in Collections:
COLLEGE OF ENGINEERING[S](공과대학) > COMPUTER SCIENCE AND ENGINEERING(컴퓨터공학부) > Articles
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE