207 0

웹 페이지 내용 추출의 평가 프레임워크

Title
웹 페이지 내용 추출의 평가 프레임워크
Other Titles
An Evaluation Framework for Extraction Contents from a Web Page
Author
문은환
Alternative Author(s)
Eunhwan Moon
Advisor(s)
차재혁
Issue Date
2019-02
Publisher
한양대학교
Degree
Master
Abstract
웹 페이지 내용 추출이란 렌더링된 웹 페이지로부터 본문, 메뉴, 광고 등의 특정한 목적을 갖는 블록을 추출하는 일련의 동작을 의미한다. 웹 페이지의 내용을 정확하게 파악하는 것은 커스터마이징된 웹 크롤러, 상품 비교를 위한 쇼핑 에이전트, 검색엔진 및 뉴스 봇 최적화 등 다양한 분야에서 유용하게 사용된다. 기존에 연구된 웹 페이지 내용 추출 알고리즘들의 경우 정답 데이터베이스와 내용추출 알고리즘, 그리고 성능 계산 기준을 자체적으로 설정하여 성능 평가를 진행해왔다. 그러나 정답 데이터베이스가 서로 상이하고, 같은 웹 페이지 내용 추출 알고리즘이라도 구현이 다르며, 성능 계산 기준은 면적, DOM 트리구조, 내용 유사도 등 다양한 방법으로 설정되어있기 때문에 새로운 알고리즘을 제안할 경우 기존 연구결과를 활용하기 어렵고, 새롭게 평가 프레임워크를 구축해야 하는 어려움이 있다. 본 논문에서는 웹 페이지 내용 추출 알고리즘들의 비교를 위해 평가 프레임워크를 제안하여 실험 데이터 및 정답 데이터베이스를 공유할 수 있도록 한다. 또한 지금까지 제안된 웹 페이지 내용 추출 알고리즘들을 내장하여 실험 환경을 구축하는데 필요한 시간을 절감한다. 평가 프레임워크의 기능성 평가를 위해 기본 요구 조건을 제시하고 이에 따라 다른 선행에 연구된 평가 프레임워크와 비교하였으며, 평가 프레임워크를 통한 사용성 증진 효과를 검증하기 위해 사용성 평가를 수행하였다.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/99800http://hanyang.dcollection.net/common/orgView/200000435192
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE(컴퓨터·소프트웨어학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE