80 0

연구자 홈페이지 내 콘텐츠 유형에 따른 세부적인 정보 블록 분류 및 식별 방법

Title
연구자 홈페이지 내 콘텐츠 유형에 따른 세부적인 정보 블록 분류 및 식별 방법
Other Titles
Discovering Informative Blocks and Recognizing Their Content Types from Academic Homepages
Author
김정선
Keywords
웹 페이지 분할; 정보 블록 식별; 콘텐츠 유형 식별; 블록 분류; 연구자 홈페이지; web page segmentation; informative block identification; content type recognition; block classification; academic homepages
Issue Date
2013-04
Publisher
한국정보과학회
Citation
정보과학회논문지 : 소프트웨어 및 응용, v. 40, NO. 4, Page. 220-232
Abstract
웹 마이닝과 정보 추출의 성능을 높이기 위해 유용한 정보와 불필요한 데이터가 함께 혼재된 형태의 웹 페이지를 블록으로 분할 후 해당 블록을 주 콘텐츠(primary contents)를 포함하였는지 아닌지 여부에 따라 정보 유형 혹은 비정보 유형으로 분류하고자 하는 연구가 활발히 진행되었다. 본 논문에서는 비정형화된 구조를 가지고 다양한 정보를 포함하는 연구자 홈페이지를 대상으로 콘텐츠 특징을 활용하여 정보 블록을 식별하고 해당 정보 블록을 콘텐츠 유형에 따라 세부적으로 분류하기 위한 DIRTA(Discovering Informative blocks and Recognizing content Types of blocks for Academic homepages)를 제안한다. 또한 실제 웹상의 연구자 홈페이지를 기반한 일련의 실험을 통해 제안한 DIRTA의 효율성을 평가하였다. 블록 분류의 경우 정확률 88%, 재현률 89%, F1-measure 88%로 만족할만한 성능을 보이고 특히 비정보 블록의 분류 성능은 정확률 88%, 재현률 98%, F1-measure 93%로 비정보 블록을 올바르게 필터링하는 것을 확인할 수 있다.;To improve the performance of Web mining and information extraction, previous studies, which segment Web pages consisting of a mixture of useful information and noise data into blocks and then classify those blocks to an informative type or a non-informative type depending on whether a block includes primary contents or not, are actively progressed. In this paper, we propose DIRTA (Discovering Informative blocks and Recognizing content Types of blocks for Academic homepages) in order to discover informative blocks and to classify them into the content types of blocks in detail. Experiments were carried out with the academic homepages that actually exist on the Web and the results are satisfactory in the sense that the precision, recall and F1-measure of block classification of DIRTA are 88%, 89% and 88%, respectively, and in particular, the performance of classifying non-informative blocks shows the precision 88%, recall 98% and F1-measure 93%, which means DIRTA correctly filters non-informative blocks.
URI
https://www.dbpia.co.kr/journal/articleDetail?nodeId=NODE02136370https://repository.hanyang.ac.kr/handle/20.500.11754/185913
ISSN
1229-6848
Appears in Collections:
ETC[S] > ETC
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE