205 0

렌더링된 웹페이지의 시각적 요소를 활용하는 주요 콘텐트 분할 기법

Title
렌더링된 웹페이지의 시각적 요소를 활용하는 주요 콘텐트 분할 기법
Other Titles
Main Content Segmentation using Visual Features from a Rendered Webpage
Author
정근성
Alternative Author(s)
Geunseong Jung
Advisor(s)
차재혁
Issue Date
2023. 8
Publisher
한양대학교
Degree
Doctor
Abstract
지난 20년 간, 보편성(universality)는 웹의 가장 중요한 가치 중 하나였으며 그 결과 웹은 가장 거대하면서도 다양한 데이터가 모인 장소가 되었다. 그러나 그 다양성으로 인해 웹에서 데이터가 생성되는 방법 또한 무수히 많아졌다. 현재 대부분의 웹페이지는 그 주요 콘텐트(main content)를 여러 기능을 가진 영역과 같이 표시한다. 웹페이지의 메인 콘텐트는 대개 메뉴, 광고 및 그 외의 웹페이지 템플릿과 보일러플레이트(boilerplate)에 둘러싸여 있다. 웹페이지 세그멘테이션(webpage segmentation)과 웹페이지 메인 콘텐트 세그멘테이션(main content segmentation) 기술은 이러한 영역들을 유사한 영역끼리 분리하는 것으로 콘텐트 분석, 웹 검색엔진, 브라우저 읽기 모드 등 다양한 정보 검색 응용의 핵심적 단계이다. 이 기술들의 목적은 웹페이지를 보다 유용한 형태의 데이터로 변환하고 정보를 얻는 것이며, 이는 연구, 비즈니스 목표 및 사용자 요구에 따라 달라진다. 그러나 웹페이지의 레이아웃, 구조 및 외형 등은 단일하지 않으며 웹페이지마다 다를 수 있다. 이는 웹페이지 세그멘테이션 및 메인 콘텐트 세그멘테이션 기술의 성능을 측정하기 위해 보편적인 방법을 취하기 어렵게 한다. 본 논문에서는 웹페이지 세그멘테이션 및 메인 콘텐트 세그멘테이션 기술을 비교할 수 있는 벤치마크의 설계 및 구현을 제시한다. 이 벤치마크는 Longest common subsequence(LCS), Matched text blocks 및 IoU(Intersection over Union)의 세 가지 성능 척도를 통해 웹페이지에 대한 비교 실험을 지원한다. 이 세 가지 성능 척도는 각각 텍스트, 웹 페이지 구조(HTML 및 DOM) 및 시각적 영역에 대응한다. 구현된 벤치마크는 세 가지의 성능 척도로 실험을 자동화할 수 있다. 더불어, 웹페이지 크롤링, 데이터 어노테이션, 기존 기술들의 실행 등을 지원한다. 유명 웹브라우저의 읽기 모드와 머신러닝 모델, 총 4가지 기술을 사전에 탑재하여 다양한 성능 평가를 지원한다. 이 벤치마크의 데이터셋은 세계의 여러 지역 저장된 웹페이지로 구성되어 있다. 전세계(영어), 한국, 일본, 중국, 프랑스, 사우디 아라비아, 인도네시아, 러시아에서 수집된 데이터셋은 지역과 언어적 특성을 고려한 벤치마크를 수행할 수 있게 한다. 이러한 벤치마크의 구성요소들은 웹페이지 세그멘테이션 및 메인 콘텐트 세그멘테이션 기술을 다양한 측면에서 조사할 수 있게 도와준다. 한편, 웹이 전 세계적으로 사용되면서 웹 환경은 모든 문화, 지역 및 언어에서 각각 발전했다. 이에 따라 웹페이지를 구축하는 무수한 방법이 등장했으며, 국가별로 웹페이지의 모습과 콘텐트를 표시하는 방법도 다양해졌다. 이러한 차이는 특정 환경에서 메인 콘텐트 세그멘테이션 기술의 성능 저하를 유발한다. 따라서 이 논문은 새로운 메인 콘텐트 세그멘테이션 알고리즘인 Grid-Center-Expand(GCE)을 제시한다. 렌더링된 웹 페이지의 시각적 기능을 사용하는 이 알고리즘은 여러 언어와 성능 척도로 진행된 벤치마크에서 모든 비교 대상 중 최고의 성능을 발휘했다.| For many decades, due to the pursuit of the universality of the Web, it has become the largest and most diverse source of data. However, the diversity has made it difficult to create data from it in a more universal and standardized way. Currently, most webpages display their main contents with other areas with different functions and contents. The main content of a webpage is often surrounded by other boilerplate elements related to the template, such as navigation bars, advertisements, footers, etc. Webpage segmentation and main content segmentation are important steps for various applications of information extraction, such as content analysis, keyword-based web search, and browser reader modes. The purpose of these technologies are to convert webpages into more useful forms of data and obtain information, which varies depending on research, business objectives, and user needs. However, webpages are heterogeneous in terms of layout, structure and style. This poses challenges to take a generalizable way for measuring performances of webpage segmentation and main content segmentation methods. This thesis presents the design and implementation of benchmarks that can compare webpage segmentation and main content segmentation methods. This benchmark allows comparative experiments on webpage through three metrics: Longest Common Subsequence (LCS), matched text blocks, and Intersection over Union (IoU). The metrics are for text, webpage structure (HTML and DOM), and visual areas, respectively. The implementation of the benchmark allows automated experiments for the three metrics. It supports webpage crawling, data annotation, and various performance evaluation with four pre-loaded methods, including major web browsers’ reader modes and machine-learning models. The dataset of the benchmark also contains archived webpages of eight regions worldwide: Global(English), South Korea, Japan, China, France, Saudi Arabia, Indonesia, and Russia. This dataset allows benchmarks to be performed considering local characteristics and languages. These properties help this benchmark to investigate the techniques of webpage segmentation and main content segmentation in various aspects. Meanwhile, as the Web is global in scale, a web environment has developed in every culture, region and language. Accordingly, thousands of methods to build webpages have emerged, and the appearance of webpages also varied by country, like the content. These differences cause performance degradation for webpage segmentation and main content segmentation in certain environment. Thus, this thesis presents a new main content segmentation algorithm, Grid-Center-Extend (GCE). Using visual features from a rendered webapge, this algorithm segments the main content from webpages. The overall performance of the GCE algorithm is superior to the existing state-of-art main content segmentation methods explained in Related Work (in Chapter 3) using datasets of various languages (English, Korean, Japanese, Chinese, French, Indonesian, Arabic, and Russian) and performance metrics (Longest common subsequence, Matched text blocks, and Intersection over Union).
URI
http://hanyang.dcollection.net/common/orgView/200000684094https://repository.hanyang.ac.kr/handle/20.500.11754/187345
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE(컴퓨터·소프트웨어학과) > Theses (Ph.D.)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE