353 0

정보제공 페이지 블록 인식에 기반한 웹 마이닝 프레임워크

Title
정보제공 페이지 블록 인식에 기반한 웹 마이닝 프레임워크
Other Titles
A Web Mining Framework based on the Recognition of Informative Page Blocks
Author
강진범
Alternative Author(s)
Jinbeom Kang
Advisor(s)
최중민
Issue Date
2009-08
Publisher
한양대학교
Degree
Doctor
Abstract
웹 문서는 콘텐츠 뿐만 아니라 광고, 카피라이트, 메뉴 등 다양한 정보를 포함하고 있다. 웹 문서를 가공하지 않고 웹 데이터 마이닝에 적용할 경우, 카피라이트, 메뉴와 같이 콘텐츠와 관계 없는 데이터가 에러를 유발시켜 잘못된 결과를 제공할 수 있다. 예를 들어 주제기반 웹 문서 수집기(focused crawler)의 분류기를 생성하기 위해 가공하지 않은 웹 문서를 학습하는 경우, 광고 또는 메뉴, 카피라이트도 긍정 데이터(positive data)로 간주된다. 비록 두 웹 문서의 연관성은 없을지라도, 동일한 메뉴와 카피라이트를 가지고 있기 때문에 두 웹 문서는 유사하다고 예측할 수 있다. 이러한 문제점을 해결하기 위해 불필요한 데이터를 제거하고 주요 정보를 식별하는 정보제공 페이지 블록 인식 기법이 필요하다. 뿐만 아니라, 주요 정보 기반 웹 마이닝 서비스의 신속한 구현을 위해 체계적인 관리할 수 있는 프레임워크가 필요하다. 결과적으로 웹 문서 수집기 뿐만 아니라 정보검색, 정보추출 등 다양한 웹 데이터 마이닝에서 중요 내용을 식별함으로써 에러를 최대한 줄인 결과를 얻을 수 있다. 본 논문에서는 정보제공 페이지 블록 인식에 기반한 웹 마이닝 프레임워크를 제안한다. 제안하는 프레임워크를 개발하기 위해 웹 문서를 블록단위로 분할하는 기술과, 분할된 블록들 중에서 주요 정보를 담고 있는 정보제공 페이지 블록을 인식하는 기술이 필요하다. 특히 사용자의 행동을 분석하여 묵시적으로 사용자가 요구하는 정보를 인지한다. 제안하는 프레임워크는 사용자의 행동 수집부, 웹 문서를 블록단위로 분할하는 웹 문서 분할부, 내용적, 구조적 정보제공 페이지 블록 인지기 생성 및 평가부로 구성된다. 사용자 행동 수집부는 사용자의 선호 정보를 분석하기 위해 행동 정보를 수집한다. 수집한 웹 문서들은 여러 블록으로 구성되어 있으며, 웹 문서 분할부에서 단일 정보 블록으로 구분하기 위해 웹 문서 분할을 수행한다. 정보제공 페이지 블록 인식부는 묵시적 사용자 선호 정보 파악과 새로운 웹 문서의 주요 정보를 인식하기 위해 블록들의 연관성을 파악하고 선호 개념 모델을 생성한다. 제안하는 프레임워크는 웹 마이닝 서비스 구현에 대해 4가지 이점이 있다. 먼저 웹 문서의 구조적 패턴을 이용한 웹 문서 분할을 함으로써 기존의 웹 문서 분할 방법이 가지고 있던 도메인의 많은 웹 문서 요구 또는 태그 중심 휴리스틱 규칙을 이용한 웹 문서 분할의 문제점들을 해결할 수 있다. 제안하는 방법은 하나의 웹 문서에서 패턴을 분석하기 때문에 많은 문서를 요구하지 않으며, 패턴을 기반으로 매칭 영역을 블록으로 형성함으로써 태그 중심 휴리스틱 규칙에 대한 유지보수 비용이 발생하지 않는다. 두 번째, 사용자의 선호 등급 구분 및 예측이 가능하다. 사용자마다 관심 정보가 다르며, 정보에 대한 관심 정도가 다르다. 본 논문에서는 정보의 선호 정도에 따라 등급을 구분할 할 수 있는 인식기를 제안한다. 사용자의 히스토리열을 중심으로 사용자의 선호정보 및 등급을 파악하고 인지기의 학습데이터로 활용함으로써 새로운 문서에 대한 등급을 보다 명확하게 예측할 수 있다. 세 번째, 제안하는 프레임워크를 이용하여 서비스에 필요한 데이터를 자동 수집할 수 있다. 본 프레임워크는의 묵시적 사용자 행동 정보 수집 모듈은 개발자 또는 관리자의 개입 없이 자동으로 처리함으로써 신속하고 효과적인 데이터 관리가 가능하다. 마지막으로 다양하고 복합적인 서비스 확장이 용이이다. 마이닝 데이터를 서비스부와 독립적인 수집부와 웹 문서 분할 및 정보제공 페이지 블록 인식부에서 처리함으로써, 서비스부는 데이터에 처리에 대해 고려하지 않아도 되며, 데이터를 이용한 다양한 서비스 확장이 용이한 이점이 있다. 웹 마이닝 서비스 성능에 영향을 미치는 본 프레임워크의 웹 문서 분할부와 정보제공 페이지 블록 인식부에 대해 성능평가를 하였다. 웹 문서 분할 결과에 대한 정확도는 90%가 넘었으며, 정보제공 페이지 블록 인식기의 결과에 대해 사용자는 평균 78%를 만족하였다.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/143629http://hanyang.dcollection.net/common/orgView/200000412699
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE & ENGINEERING(컴퓨터공학과) > Theses (Ph.D.)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE