383 0

HTML 특성을 고려한 트리 편집거리 측정 알고리즘의 개선

Title
HTML 특성을 고려한 트리 편집거리 측정 알고리즘의 개선
Other Titles
Improvement of an algorithm for tree-editing distance measure regarding the features of HTML
Author
최중민
Issue Date
2005-11
Publisher
한국정보과학회
Citation
한국정보과학회 2005 가을 학술발표 문집 (Ⅱ), v. 32, No. 2, Page. 718 - 720
Abstract
웹 문서를 대상으로 하는 정보 추출이나 웹 마이닝에 관한 연구가 활발히 진행되면서 특히, 웹에서 나타나는 구조적 패턴을 이용해 정보를 추출하는 방법에 대한 연구가 이루어 지고 있다. 기존의 연구는 HTML을 단순 문자열로 취급하였으나 연구가 거듭됨에 따라 트리로 접근하는 방안에 대해 논의가 되었으며 성능 또한 우수한 것으로 평가되고 있다. 하지만, 기존의 트리 편집 거리의 기법은 모든 노드가 동일한 값을 가진다는 가정하에 진행되는 것으로 HTML의 특성과는 맞지 않다. HTML은 브라우저에 정보를 보여주기 위한 도구이며 실제 브라우저에 보여지는 내용의 비율이 트리에서의 노드의 비율과 항상 같은 것은 아니기 때문이다. 이 논문에서는 위와 같은 HTML의 특성을 이용하여 노드가 가진 정보의 크기에 따라 서로 다른 비율의 기여도를 부여하고, 이를 고려한 개선된 트리 편집 거리 측정 알고리즘을 이용하여 좀더 나은 패턴 추출 방법을 제안하고자 한다.
URI
http://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE00951256&language=ko_KRhttps://repository.hanyang.ac.kr/handle/20.500.11754/111863
Appears in Collections:
COLLEGE OF ENGINEERING SCIENCES[E](공학대학) > COMPUTER SCIENCE AND ENGINEERING(컴퓨터공학과) > Articles
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE