웹 검색 엔진을 위한 중복문서 검색 알고리즘 분석 및 비교
- Title
- 웹 검색 엔진을 위한 중복문서 검색 알고리즘 분석 및 비교
- Other Titles
- Analysis of Algorithms for Detecting the Blog-duplicate documents for the Web search engines.
- Author
- 박희진
- Keywords
- 웹검색엔진; 중복문서; 검색알고리즘
- Issue Date
- 2011-11
- Publisher
- 한국정보과학회 / KOREA INFORMATION SCIENCE SOCIETY
- Citation
- 한국정보과학회 학술발표논문집,Vol.38 No.2A [2011],341-344(4쪽)
- Abstract
- 블로그 환경에서는 대부분의 중복문서들이 부분 중복문서인 경우가 많으며, 앞서 실험해 본 결과 이러한 부분 중복문서들 중 대략 99%가 처음과 끝에서 조금 차이를 보이고 오직 1%만이 문서 중간에서 차이를 보였다. 이것을 찾아내는데 효율적인 알고리즘 중에 하나가 Central-match 알고리즘이다. 중복문서를 식별하는 것과 유사한 문제로는 원본문서 탐색문제(Origin detection problem)가 있다. 이 문제는 특정 문서가 들어오면, 이 문서는 주로 어느 문서에서 추출되었는지를 가리키는 문제이다. 이 문제에 대한 효율적인 알고리즘으로는 Hailstorm&BE 알고리즘이 있다. 우리는 원본문서 탐색문제에 사용되는 Hailstorm&BE 알고리즘이 블로그 환경에서 중복문서를 찾아내는 블로그 중복 식별문제도 효과적으로 해결할 수 있을 것으로 예상하였고, 이에 Hailstorm&BE 알고리즘을 중복문서를 식별할 수 있도록 변형, Central-match 알고리즘과 비교 분석하여 두 알고리즘 중 어느 알고리즘이 블로그 중복문서를 찾아내는데 더 적합한가를 실험해보았다. 그 결과, Hailstrom&BE 알고리즘이 원본문서 탐색문제뿐만 아니라 블로그 중복 식별문제에서도 효과적인 알고리즘이 될 수 있음을 보였다.
- URI
- http://www.dbpia.co.kr/Article/NODE01745013
- ISSN
- 2466-0825
- Appears in Collections:
- COLLEGE OF ENGINEERING[S](공과대학) > COMPUTER SCIENCE AND ENGINEERING(컴퓨터공학부) > Articles
- Files in This Item:
There are no files associated with this item.
- Export
- RIS (EndNote)
- XLS (Excel)
- XML