337 0

유전자 알고리즘에 기반한 데이터 불균형 해소 기법들의 결합적 활용

Title
유전자 알고리즘에 기반한 데이터 불균형 해소 기법들의 결합적 활용
Other Titles
A Genetic Algorithm-based Combination Usage of Data Imbalance Reduction Techniques
Author
장영식
Alternative Author(s)
Jang, Young-Sik
Advisor(s)
김종우
Issue Date
2007-02
Publisher
한양대학교
Degree
Master
Abstract
기계학습 알고리즘을 실제 데이터 집합에 적용 시, 부딪치는 문제 중의 하나가 데이터 불균형 문제이다. 데이터 불균형이란 한 범주에 속한 데이터의 수가 다른 범주에 속한 데이터의 수보다 극히 많거나 작은 경우를 말한다. 데이터 불균형의 문제가 발생하면, 지도학습 모형은 전체적인 오분류를 작게 하기 위해서 다수의 범주로 패턴 분류를 많이 하게 되고 소수의 범주는 다수의 범주로 취급되기 때문에 데이터 불균형은 분류의 성능을 저하시키는 원인이 된다. 이러한 불균형 문제를 해결하기 위해 Sampling과 오분류 비용에 근거한 여러 가지 기법들이 제시되었으며, 이들 간의 성능 비교에 대한 연구들도 이루어졌다. 하지만, 이들 기법들을 조합적으로 활용할 수 있는 방안이나 기법에 대한 연구는 거의 부족한 형편이다. 본 논문에서는 기존에 제시된 불균형 문제 해소기법들의 결합적 활용에 대한 타당성을 살펴보고 유전자 알고리즘을 통해 그 결합 비율을 결정하여 더 좋은 성과를 낼 수 있는지에 대해 살펴보도록 한다. 본 논문에서는 소수범주에 대한 예측 정확성에 초점을 맞추고 있다. 즉, 소수 범주에 대한 예측 정확성을 높이기 위해 소수 범주에 대한 F-value를 적합도 함수(Fitness function)로 하여 기법들의 결합비율을 결정하고 기존 단일 기법들의 성과와 임의의 비율에 의한 결합 성과를 비교하여 결합적 활용의 타당성을 살펴본다. 이를 실증적으로 검토하기 위해서, 일반적으로 데이터 불균형 문제를 해결하기 위해 많이 사용되는 UCI repository 데이터, Mammography 데이터와 ELENA 프로젝트 데이터의 4개의 데이터 집합을 이용하여 타당성 분석을 수행하였다. 분석 결과, 전체적으로 단일 기법들의 결합적 활용이 데이터 불균형 해소에 유용한 것으로 나타났다. 기존 단일 기법들의 성과보다는 격자표에 의한 결합에 따른 성과가 더 높게 나타났으며 활용할만한 성과를 보였다. 또한 유전자 알고리즘을 통한 결합 비율결정 방법이 격자표에 의한 결합보다 더 좋은 성과를 내는 것으로 나타났다.; Data imbalance problem can be often encountered when machine learning algorithms are applied to real-world datasets. The data imbalance problem typically means that there are more or less instances in a class than in other classes. In such case, the data imbalance problem causes low prediction accuracy of a minority class because classifiers tend to assign instances to major classes and ignore the minor class to reduce overall misclassification rate. In order to solve the data imbalance problem, a number of solutions based on resampling with replacement, adjusting the decision threshold, and adjusting the cost of the different classes were previously proposed and discussed in this field. But there is no empirical study of the combined usage of these various techniques for the imbalanced data. In this research, we study the feasibility of the combination usage of the techniques previously proposed to deal with the imbalanced data, and propose a combination method using Genetic Algorithm to find the optimal combination percentage. In this study, we focus on the accuracy of the minority class. That is, to improve the estimated accuracy of a minority class, we decide the combination percentage by using the F-value of the minority class as the fitness function of Genetic algorithm, and compare the performance with those of single techniques and the matrix-style combination of random percentage. To achieve our research objectives, we use four datasets with different distributions of UCI repository data, Mammography data, and ELENA project data generally used to compare the performance of methods for the data imbalance problem. The analysis results show that the combination usage of these techniques can be used to solve the data imbalance problem. The matrix-style combination with random percentage provides better performance than the single usage of the techniques. The combination usage using Genetic algorithm provides better performance than the matrix-style combination matrix with random percentage.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/150434http://hanyang.dcollection.net/common/orgView/200000406298
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > BUSINESS ADMINISTRATION(경영학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE