667 0

Study on similarity measure for k-means clustering

Title
Study on similarity measure for k-means clustering
Other Titles
체계적 문헌 고찰을 위한 텍스트 유사도 분석의 활용 방안에 대한 연구
Author
김의성
Alternative Author(s)
김의성
Advisor(s)
권규현
Issue Date
2021. 2
Publisher
한양대학교
Degree
Master
Abstract
Systematic literature review (SLR) is a widely used research methodology by its advantage that provides qualitative evaluation and integrated sight among collected researches according to predetermined criteria. However, SLR has the limitation that is very time-consuming and labor-intensive in excluding process. In particular, these days when various studies are being actively conducted compared to the past, it is pointed out that the problem is getting worse, and that research through SLR could not cover all new studies. To solve the problem, machine learning algorithms have been attempted lately. Especially clustering technique is being studied in various ways as an advantage of binding data that algorithms find similar by themselves. Among them, it is one of the important issues of how to apply to the text document vector with high-dimensional and sparse characteristics within the various similarity measures. Therefore, in this study, I selected some similarity measures that are commonly used and promising for high-dimensional vector and compared them. Then k-means clustering algorithm was implemented in SLR datasets by the best similarity measure. For the evaluation of results, WSS(work saved over sampling) was used as the main metric which shows how much work saved compared with conventional processes of SLR. Lastly, with the implemented step-wise k-means clustering to enhance the evaluation metrics while maintaining a high recall value, about 0.74 WSS was achieved. The main contribution of this study lies in estimating and comparing some similarity measures that the probably promising for the text document clustering. The result of the study shows that the step-wise k-means clustering algorithm with using proper similarity measures can reduce the workload of the researcher who carries out the SLR.; 오늘날 체계적 문헌 고찰은 정해진 기준에 맞는 연구들을 수집하여 질적 평가와 통합적 시각을 제공하는 장점으로 인해 여러 학문 영역에서 두루 쓰이는 연구 방법이다. 하지만 체계적 문헌 고찰은 수 많은 연구들을 배제하는 과정에서 연구자로 하여금 많은 시간과 노동을 소모하게 하며, 연구자의 편향이 발생할 수 있다는 문제점이 있다. 특히 과거에 비해 다양한 연구들이 활발하게 진행되는 요즘에는 이런 문제점이 더 심화되어, 체계적 문헌 고찰을 통한 연구가 새로운 연구들을 다 커버되지 못하는 점이 지적되기도 한다. 최근 들어 기계학습 알고리즘을 활용하여 이런 문제를 해결하려는 시도가 꾸준히 있어 왔다. 특별히 군집화 기법은 비지도 학습으로 알고리즘이 스스로 비슷하다고 판단하는 데이터들을 묶어주는 장점으로 다각도로 적용되어 연구되고 있다. 그 중에서도 데이터의 유사도를 판단하는 다양한 방식 중에서 고차원적이고 희박한 특성을 갖는 문서 벡터에 대해 어떤 방식을 적용하느냐는 중요한 문제 중 하나이다. 따라서 본 연구에서는 먼저 대중적이면서, 고차원 벡터에 유망한 유사도 측정 방식을 선정하여 비교 분석하였다. 그 후 가장 결과가 좋은 방식으로 체계적 문헌 고찰 데이터세트에 대해 k-평균 군집화를 실시하였다. 결과에 대한 평가는 전통적인 체계적 문헌 고찰의 과정과 비해 얼마나 일이 줄었는지 볼 수 있는 WSS(work saved over sampling)를 주 지표로 이용하였다. 높은 회수율(recall)을 유지하면서 다른 평가지표들의 결과를 더 좋게 얻기 위해 단계적 군집화를 실시하였고, 최종적으로 약 0.74의 WSS를 달성하였다. 본 연구는 체계적 문헌 고찰과 같은 글 문서들을 k-평균 군집화를 적용함에 있어 적절한 유사도 측정 방식을 평가, 비교한 것에 의의가 있다. 이를 적용한 단계적 k-평균 군집화를 이용하면 체계적 문헌 고찰을 수행하는 연구자의 작업량을 줄일 것으로 기대된다.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/159247http://hanyang.dcollection.net/common/orgView/200000485740
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > DEPARTMENT OF INTELLIGENCE COMPUTING (인텔리전스컴퓨팅학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE