Repository at Hanyang University: 웹 페이지 내용 추출 알고리즘 성능 평가 프레임워크

Browse

My Repository

Repository at Hanyang UniversityGRADUATE SCHOOL[S](대학원)COMPUTER SCIENCE(컴퓨터·소프트웨어학과)Theses (Master)

352 0

웹 페이지 내용 추출 알고리즘 성능 평가 프레임워크

Title: 웹 페이지 내용 추출 알고리즘 성능 평가 프레임워크

Author: 박민우

Advisor(s): 차재혁

Issue Date: 2020-02

Publisher: 한양대학교

Degree: Master

Abstract: 웹 페이지 내용 추출 알고리즘은 웹 마이닝의 요소로서, 한 웹 페이지의 독자적인 정보만을 가진 영역만을 추출하는 과정이다. 웹 페이지는 명시적으로 콘텐츠의 중요도를 표시하지 않으므로 웹 페이지 내용 추출 알고리즘은 모든 웹 페이지에 대해서 완벽히 중요한 콘텐츠만 추출할 수 있다는 보장이 없다. 따라서 각 알고리즘들의 성능이 제각각 이며 각 알고리즘 간에 차이를 비교하기 위해서는 동일한 실험 대상과 조건을 보장할 수 있는 성능 비교 평가하기 위한 도구가 필요하다. 특히, 변하기 쉬운 웹 페이지의 성질로 인해 실험 시기에 따라 성능이 변하는 것을 방지할 수 있어야한다. 또한, 각 알고리즘이 취한 접근법에 따라 서로 다른 웹 페이지 내용 추출 성능 척도를 각 접근법에 따라 통일할 수 있어야한다. 마지막으로, 추후 개발되는 알고리즘과 웹 환경에 대응할 수 있도록 충분한 확장성을 보장하여야 한다. 본 논문에서는 여러 웹 페이지 내용 추출 알고리즘 간의 성능을 비교 평가할 때, 실험 대상인 웹 페이지들을 저장하여 웹 페이지 변화로부터 안전을 보장하는 관리 기능을 제공하고 여러 비교 웹 페이지 내용 추출 평가 척도를 확장 적용 가능한 성능 비교 평가 프레임워크를 제안한다. 또한 제안한 프레임워크를 이용하여 상용 브라우저에서 사용되고 있는 웹 페이지 내용 추출 기술들과 최근 연구되어진 웹 페이지 내용 추출 알고리즘들을 서로 비교 평가하였다.

URI: https://repository.hanyang.ac.kr/handle/20.500.11754/123851 http://hanyang.dcollection.net/common/orgView/200000437565

Appears in Collections:: GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE(컴퓨터·소프트웨어학과) > Theses (Master)

Files in This Item:

Export: RIS (EndNote); XLS (Excel); XML

Show full item record

한양대학교 리포지터리는 국립중앙도서관 OAK 보급사업으로 구축되었습니다. Feedback 개인정보처리방침

Hanyang University repository

Browse

My Repository

BROWSE