609 0

혼합형 데이터에서 KAMILA 군집화를 이용한 다변수 이산화 방법

Title
혼합형 데이터에서 KAMILA 군집화를 이용한 다변수 이산화 방법
Other Titles
Multivariate Discretization using KAMILA Clustering in Mixed Type Data
Author
이정민
Alternative Author(s)
LEE JEONGMIN
Advisor(s)
차경준
Issue Date
2021. 8
Publisher
한양대학교
Degree
Master
Abstract
데이터의 양이 많아지고, 구조가 복잡해지면서 데이터 전처리는 데이터 분석 과정에서 중요해족 있다. 데이터 전처리를 통해서 원자료를 분석하기 쉽게 정리하고, 모델의 정확도를 높일 수 있고, 분석 시간 또한 절약할 수있기 때문이다. 데이터 전처리의 여러 방법 중 하나인 데이터 축소 방법은 특히 원본 데이터의 크기를 줄이고, 데이터에 존재할 수 있는 이상치를 제거하는데 사용되어진다. 그 중 이산화 방법은 연속형 변수를 이산형으로 변환하여 데이터를 축소시키는 방법으로, 연속형 변수의 값을 그룹화하여 연속적인 영역을 겹치지 않는 간격으로 분할하는 방법이다. 이산화 방법을 통해서 나이브베이즈 (Naïve-bayes), 의사결정나무 (Decision Tree)와 같은 분류 모델의 정확도가 증가하고, 분류 속도도 빨라진다. 또한, 데이터 축소를 통해 모델을 쉽게 해석하는 데 도움을 준다. 하지만 기존의 이산화 방법은 단일변수에 대해서 이산화를 진행하였기 때문에 상호 관계가 손실된다는 단점이 있다. 또한, 지도학습 (Supervised) 기반의 이산화 방법은 클래스 정보가 없는 경우에는 이산화 방법을 사용할 수 없다. 본 연구에서는 기존의 Joint Grid 이산화 방법이 연속형 변수만 다룰 수있다는 단점을 극복하기 위해, 혼합형 데이터 군집화 방법 중 KAMILA 군집화 방법을 이용하여 연속형 변수와 범주형 변수의 상호 관계를 보존하는 이산화 방법을 제시하였다. 제안방법을 통해 혼합형 데이터 이산화 과정에서 범주형 변수의 정보손실을 최소화하고, 변수 간의 상호 관계를 보존할 수 있다. 또한, 혼합형 데이터 이산화 과정을 통해 복잡한 모델링을 하지 않고 간단하게 패턴 분석이 가능하다. 제안방법의 성능을 확인하기 위해 다양한 경우의 실험 데이터를 생성하여 기존의 이산화 방법과 비교한 결과 연속형 변수와 범주형 변수의 상호 관계를 보존하는 이산화 구간을 얻을 수 있었다. 또한, 제안방법이 전처리 과정으로 유용하게 쓰일 수 있을지 예제 데이터를 이용하여 정확도를 비교한 결과 기존의 방법에 비해 우수한 결과를 확인하였다.|As the amount of data increases and the structure becomes more complex, the importance of data preprocessing is increasing in the data analysis process. This is because, through data preprocessing, raw data can be easily analyzed, accurate models can be generated, and analysis time can be saved. The data reduction method, which is one of the many data preprocessing methods, is especially used to reduce the size of the original data and to remove errors that may exist in the data. Data reduction methods are important because they reduce the processing time by reducing the amount of data. Among them, the discretization method is a method of reducing data by converting a continuous variable to a discrete type, and is a method of grouping the values of a continuous variable to divide a continuous region into non-overlapping intervals. Through the discretization method, the accuracy of classification models such as Naïve-byase and Decision Tree is increased, and the efficiency of performance speed is also improved. Furthermore, it helps to interpret the model easily through data reduction. However, traditional discretization methods have the disadvantage of losing their interrelationship because discretization is performed on a single variable. In addition, the discretization method based on supervised learning cannot use the discretization method when there is no class information. In this study, in order to overcome the disadvantage that the existing joint grid discretization method can only deal with continuous variables, a discretization method that preserves the interrelationship between continuous and categorical variables using the KAMILA clustering method among mixed data clustering methods is proposed. Through the proposed method, information loss of categorical variables can be minimized in the process of discretizing mixed data, and the correlation between continuous and categorical variables can be preserved. In addition, pattern analysis is possible without complex modeling through the mixed data discretization process. In order to check the performance of the proposed method, experimental data for various cases were generated and compared with the existing discretization method, a discretization section that preserves the correlation between continuous and categorical variables was obtained. In addition, as a result of comparing the accuracy using example data to see if the proposed method could be usefully used as a preprocessing process, superior results were confirmed compared to the existing method.
URI
http://hanyang.dcollection.net/common/orgView/200000497250https://repository.hanyang.ac.kr/handle/20.500.11754/163572
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > APPLIED STATISTICS(응용통계학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE