308 0

Gaussian-based oversampling approach for imbalanced and overlapped class adapting the minimum covariance determinant

Title
Gaussian-based oversampling approach for imbalanced and overlapped class adapting the minimum covariance determinant
Author
양승지
Alternative Author(s)
Seung Jee Yang
Advisor(s)
차경준
Issue Date
2023. 8
Publisher
한양대학교
Degree
Doctor
Abstract
특정 클래스의 표본 크기가 상대적으로 큰 경우를 클래스 불균형이라 한다. 클래스 불균형이 존재할 경우, k-최근접 이웃 및 서포트 벡터 머신과 같은 표준 분류 모델은 표본 크기가 큰 다수 클래스에 편향되기 쉽다. SMOTE 및 Borderline-SMOTE와 같은 대부분의 오버샘플링 방법은 선형 보간을 통해 샘플을 생성하여 문제를 해결하고자 한다. 그러나 이런 방법들은 훈련 샘플 영역을 제한하기 때문에 분류 모델을 과적합시키는 문제를 유발할 수 있다. 또한, 최근 연구에 따르면 클래스 불균형이 아닌, 동일한 데이터 공간 영역을 서로 다른 클래스의 샘플들이 공유하는 클래스 겹침 현상이 분류 성능에 악영향을 미치는 것으로 나타났다. 클래스 겹침을 고려한 연구들은 일반적으로 분류 알고리즘을 개선하였다. 이러한 연구들은 일반적으로 데이터 세트를 겹치는 부분과 겹치지 않는 부분으로 구분한 후, 분류기를 각 부분 집합에 달리 적용하여 분류 성능을 극대화한다. 본 연구에서는 클래스 불균형과 겹침을 처리하기 위해 최소 공분산 행렬식을 적용한 가우스 기반 오버샘플링(GOMCD)을 제안한다. GOMCD는 분포 기반의 난수 생성을 사용하여 훈련 샘플 영역을 확장하기 때문에 과적합의 위험을 완화할 수 있다. 최소 분산 행렬식을 적용한 가우스 혼합 모델을 통해 분포를 추정하였다. 이 과정에서 먼저 추정된 분포 기반으로 이상치를 제거한 후, 가우스 혼합 모델로 다시 분포를 추정한다. 이상치의 영향을 감소시키는 재군집화를 통해 GOMCD는 훈련 샘플 영역의 확장을 다소 제한한다. 또한, 클래스가 겹치는 영역에 소수 클래스 샘플을 집중적으로 더 생성하여 분류 성능을 개선시키기 위해 본 연구에서는 클래스 겹침 정도를 정의하였고 반영 비율을 모델의 모수로 설정하였다. 재군집화의 필요성과 클래스 겹침에 대한 반영 비율 변화에 따른 분류 성능 변화를 파악하기 위해 시뮬레이션 데이터를 활용하여 GOMCD의 효과를 확인하였다. 또한 24개의 벤치마크 데이터 세트에 대해 분석을 수행하여 오버샘플링 방법론들과의 분류 성능을 비교하였다. 그 결과 GOMCD는 재현율, G-mean 점수에서 좋은 분류 성능을 보였고, 랜덤 포레스트를 분류기로 사용했을 때 가장 좋은 분류 성능을 보였다.|The class imbalance is that the sample size of a particular class is relatively large. In the presence of class imbalance, the standard classification models, such as k-nearest neighbors and support vector machine, often exhibit a bias toward the majority class. Most oversampling methods, such as SMOTE and Borderline-SMOTE, try to solve the problem by generating instances through linear interpolation. However, these methods can lead the classifiers to overfit because they limit the training sample area. Recent studies show that the classifiers' performance decreased with the class overlap, where instances of different classes share the same data space region, rather than the class imbalance. Studies considering class overlap usually modify classification algorithms. These methods usually divide the dataset into two part, overlapping subset and non-overlapping subset and then apply different classifiers to each subset in order to maximize classification performance. In this study, we propose a Gaussian-based oversampling adapting minimum covariance determinant (GOMCD) to deal with the class imbalance and overlap simultaneously. By employing distribution-based random number generation, GOMCD is able to generate artificial instances in a way that expands the training sample area, thereby mitigating the risk of overfitting. GOMCD estimates the distribution by a Gaussian mixture model adapting minimum covariance determinant. GOMCD conducts re-clustering through outlier detection and removal. Through re-clustering that mitigates the influence of outliers, GOMCD can limit the expansion of the training sample area. In this study, we defined the degree of class overlap to generate additional instances in the overlapping areas in order to improve the classification of the minority class in those areas. To evaluate GOMCD, we conducted two analyses on simulation datasets and the 24 benchmark datasets. In the simulation study, considering the class overlap improved the classification performance of GOMCD. Data analysis resulted that the proposed method shows good performance in handling imbalanced data with class overlap.
URI
http://hanyang.dcollection.net/common/orgView/200000684258https://repository.hanyang.ac.kr/handle/20.500.11754/187152
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > APPLIED STATISTICS(응용통계학과) > Theses (Ph.D.)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE