607 0

Fused WGAN을 이용한 2단계 오버 샘플링

Title
Fused WGAN을 이용한 2단계 오버 샘플링
Other Titles
Two-Stage Over Sampling via Fused Wasserstein GAN
Author
최인재
Alternative Author(s)
Injae Choi
Advisor(s)
차경준
Issue Date
2022. 2
Publisher
한양대학교
Degree
Master
Abstract
When learning oversampling model for imbalanced data, it is noteworthy whether it has sufficient data samples to learn the sampling model and whether it properly learns the data distribution. Conventional oversampling algorithms do not work normally when the number of samples used for learning is small. In addition, it is impossible to verify whether the generated synthetic data can be treated as meaningful things because it does not consider the distribution of data in the sampling process. In this paper, we propose a Fused WGAN, an imbalanced data oversampling technique using GAN based deep learning to settle these problems. I n Fused WGAN, we propose a preliminary sampling step for data augmentation to use for learning the main sampling model. After data scaling, boundary data is searched with a support vector machine, which is used for learning the preliminary sampling model, 1st WGAN-GP. The synthetic data generated from generative networks and original minority data are used for learning the main sampling model, 2nd WGAN-GP. Finally, the synthetic data solve data imbalance when learning classification models, which expands the minority area even more. In tabular data, Gumbel softmax makes distribution learning for one-hot encoded categorical variables stable. Thus, the networks properly learn the correlation between the numerical and categorical variables. As a result of the experiment, unlike conventional methods, it showed good performance in high-dimensional data with a high imbalanced ratio. | 불균형 데이터에 대한 오버 샘플링을 할 때, 중요한 점은 샘플링 모델을 학습하기 위한 충분한 샘플의 개수와 적절한 데이터 분포 학습 과정이다. 기존 오버 샘플링 알고리즘은 학습에 활용되는 샘플의 개수가 적을 경우, 알고리즘 자체가 정상적으로 작동되지 않는다. 또한, 데이터 분포를 고려하지 않기 때문에 생성된 합성 데이터가 유의미한 샘플로 취급될 수 있는지 검증하기 어렵다. 본 논문에서는 이를 해결하기 위해 딥러닝 기반의 생성 모델인 적대적 생성 신경망(Generative Adversarial Networks, GAN)을 활용한 불균형 데이터 오버 샘플링 기법 융합된 바서슈타인 적대적 생성 신경망(Fused Wasserstein GAN, Fused WGAN)을 제안한다. Fused WGAN에서는 샘플링 모델을 학습하는데 사용하기 위하여 데이터 증강을 위한 예비 샘플링 단계를 제안한다. 데이터 스케일링 이후, 서포트 벡터 머신(Support Vector Machine, SVM)을 활용하여 클래스 경계 데이터를 탐색하고, 이는 샘플링 모델인 경사 페널티를 활용한 바서슈타인 적대적 생성 신경망(WGAN with Gradient Penalty, WGAN-GP)를 학습하는데 활용된다. 첫 번째 샘플링 모델의 생성 신경망으로부터 생성된 합성 데이터와 원본 소수 범주 데이터를 활용하여 WGAN-GP모델을 재학습한다. 최종적으로 2차례에 걸쳐 학습이 완료된 샘플링 모델로부터 생성된 합성 데이터는 분류 모형을 학습할 때 클래스 불균형을 해소하고, 소수 범주 영역을 더욱 확장시킨다. 정형 데이터에 대해서 GAN을 원활하게 학습하기 위해서는 변수의 특성에 따른 처리가 필요하다. 수치형 변수에 대해서는 서로 다른 범위를 적절하게 학습하기 스케일링이 필요하다. 수치형 변수는 z-점수 정규화와 최대-최소 정규화를 순서대로 거친다. 원-핫 벡터(One-Hot vector)로 인코딩된 범주형 변수에 대해서는 신경망 구조에 굼벨 소프트맥스(Gumbel softmax)를 추가 활용한다. 신경망 모델은 수치형 변수와 범주형 변수 상관성을 적절하게 고려하여 분포 학습을 해낼 수 있다. 실험 데이터에 적용시켜본 결과, Fused WGAN은 기존의 방법들과 달리 불균형 비율이 높은 고차원 데이터에서 소수 범주에 대한 예측력이 크게 향상되는 모습을 보여주었다.
URI
http://hanyang.dcollection.net/common/orgView/200000592343https://repository.hanyang.ac.kr/handle/20.500.11754/167893
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > APPLIED STATISTICS(응용통계학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE