330 0

웹 페이지 내용 추출 알고리즘 성능 평가 프레임워크

Title
웹 페이지 내용 추출 알고리즘 성능 평가 프레임워크
Author
박민우
Advisor(s)
차재혁
Issue Date
2020-02
Publisher
한양대학교
Degree
Master
Abstract
웹 페이지 내용 추출 알고리즘은 웹 마이닝의 요소로서, 한 웹 페이지의 독자적인 정보만을 가진 영역만을 추출하는 과정이다. 웹 페이지는 명시적으로 콘텐츠의 중요도를 표시하지 않으므로 웹 페이지 내용 추출 알고리즘은 모든 웹 페이지에 대해서 완벽히 중요한 콘텐츠만 추출할 수 있다는 보장이 없다. 따라서 각 알고리즘들의 성능이 제각각 이며 각 알고리즘 간에 차이를 비교하기 위해서는 동일한 실험 대상과 조건을 보장할 수 있는 성능 비교 평가하기 위한 도구가 필요하다. 특히, 변하기 쉬운 웹 페이지의 성질로 인해 실험 시기에 따라 성능이 변하는 것을 방지할 수 있어야한다. 또한, 각 알고리즘이 취한 접근법에 따라 서로 다른 웹 페이지 내용 추출 성능 척도를 각 접근법에 따라 통일할 수 있어야한다. 마지막으로, 추후 개발되는 알고리즘과 웹 환경에 대응할 수 있도록 충분한 확장성을 보장하여야 한다. 본 논문에서는 여러 웹 페이지 내용 추출 알고리즘 간의 성능을 비교 평가할 때, 실험 대상인 웹 페이지들을 저장하여 웹 페이지 변화로부터 안전을 보장하는 관리 기능을 제공하고 여러 비교 웹 페이지 내용 추출 평가 척도를 확장 적용 가능한 성능 비교 평가 프레임워크를 제안한다. 또한 제안한 프레임워크를 이용하여 상용 브라우저에서 사용되고 있는 웹 페이지 내용 추출 기술들과 최근 연구되어진 웹 페이지 내용 추출 알고리즘들을 서로 비교 평가하였다.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/123851http://hanyang.dcollection.net/common/orgView/200000437565
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE(컴퓨터·소프트웨어학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE