226 0

기계학습 기법을 활용한 렌더링된 웹 문서 내 메뉴 검출 기법

Title
기계학습 기법을 활용한 렌더링된 웹 문서 내 메뉴 검출 기법
Author
최찬
Advisor(s)
차재혁
Issue Date
2018-02
Publisher
한양대학교
Degree
Master
Abstract
웹 페이지 핵심 요소 중 하나인 메뉴는 웹 사이트 전체의 구성과 해당 웹 사이트가 제공하고자 하는 주요 콘텐츠에 대한 정보를 제공한다. 그러기에 웹 페이지 내에서 웹 메뉴를 분류 하여 크롤러에게 정보를 제공한다면, 크롤링 시 웹 사이트의 전체 구조를 효율적으로 이해할 수 있도록 도움을 줄 수 있다. 이에 더해 현대 기술의 발달로 컴퓨터뿐만 아니라 다양한 디바이스에서도 인터넷을 사용할 수 있게 되고 있는데, 디바이스의 제어 장치에 한계가 존재할 때 메뉴를 분류한다면 웹 페이지 간 이동을 음성 등 다양한 방법을 활용하여 가능하게 한다. 이와 관련하여 본 논문에서는 웹 페이지 내의 웹 메뉴를 기계학습 기법을 활용하여 분류해 내는 기법을 제안한다. 기계 학습은 지도학습에 해당하는 로지스틱회귀를 이용하여 분류한다. 기계 학습에서는 알맞은 속성을 제공하는 것이 핵심이다. 이에 본 논문에서는 렌더링된 웹 문서 속성에 직접 가공한 속성 값을 제공하여 기계 학습 속성선택 시 더욱 다양한 선택을 할 수 있도록 하였다. 또한, 웹 메뉴 분류를 위한 기계학습 시 필요한 렌더링된 웹 페이지 문서에 대한 수집기를 크롬 확장기능 기반으로 설계한다. 마지막으로는 학습한 결과를 토대로 실시간으로 웹 페이지 메뉴를 분류할 수 있는 데모 플랫폼을 설계한다.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/68633http://hanyang.dcollection.net/common/orgView/200000432370
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE(컴퓨터·소프트웨어학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE