975 0

조건부 생성적 적대 신경망 기반의 오버샘플링 방법

Title
조건부 생성적 적대 신경망 기반의 오버샘플링 방법
Other Titles
An Oversampling Method Based on Conditional Generative Adversarial Network
Author
박지수
Alternative Author(s)
Park, Jisu
Advisor(s)
허선
Issue Date
2021. 2
Publisher
한양대학교
Degree
Master
Abstract
클래스 변수의 분포가 불균형하여 분류기가 소수의 값으로 편향되어 클래스를 구분하는 결정 경계가 명확하지 않는 문제를 클래스 불균형 문제라고 하며, 다양한 분야에서 자주 발생한다. 데이터의 수가 많은 클래스를 다수 클래스라 하며, 수가 적은 클래스를 소수 클래스라고 한다. 일반적으로 소수 클래스는 관심 대상이며, 클래스 불균형 문제가 있으면 정확한 분류 결과를 얻을 수 없고 이는 사용자의 피해로 이어질 수 있다. 클래스 불균형 문제를 해결하기 위한 방법으로는 소수 클래스의 데이터를 인위적으로 생성하는 오버샘플링이 있다. SMOTE, Borderline SMOTE, ADASYN 등 여러 방법이 연구되었지만, 기본적으로 모든 방법은 소수 클래스의 이웃 기반으로 데이터를 임의 생성하여 실제 데이터의 분포를 반영한다고 할 수 없고, 일반화 문제와 고차원에서 효과적이지 않은 문제를 가지고 있다. 이를 해결하기 위해 최근 생성적 적대 신경망(generative adversarial network, GAN)을 활용한 오버샘플링이 제안되었다. GAN은 딥러닝의 생성모델로서 가짜 데이터를 생성하는 생성자와 이를 진짜와 가짜로 구분하는 판별자가 서로 학습하면서 실제 데이터의 분포에 따라 가짜 데이터를 생성한다. 그러나 GAN으로 생성한 데이터는 분류 모델의 성능에 각기 다른 영향을 줄 수 있다. 오버샘플링의 목적은 소수 클래스 데이터의 정확한 분류를 위해 결정 경계를 다수 클래스 쪽으로 밀어내어 소수 클래스 결정 공간을 넓히는 것이므로, 데이터가 생성되었을 때 결정 공간을 넓히는데 가장 효과적인 데이터를 사용하는 것으로 분류 모델의 성능을 높일 수 있다. 일반적으로 클래스 간 경계 근처에 생성된 데이터가 결정 경계를 다수 클래스 쪽으로 밀어내는데 효과적으로 작용한다. 본 연구에서는 클래스 불균형 문제를 해결하기 위해 k-NN(k-Nearest Neighbor)과 GAN의 발전 모델인 Conditional GAN(CGAN)을 기반으로 하는 오버샘플링을 제안한다. k-NN은 데이터 생성을 위한 효과적인 소수 클래스 데이터의 여부를 판단한다. 즉, 소수 클래스 데이터의 이웃 중에 다수 클래스 데이터가 있다면 해당 데이터는 효과적인 소수 클래스라고 구분한다. 구분된 모든 소수 클래스 데이터는 CGAN을 학습하는데 사용한다. 따라서 CGAN은 결정 경계에 가까운 데이터만 오버샘플링한다. 제안 방법의 유효성을 확인하기 위해 6개의 데이터셋에 제안 방법과 기존 오버샘플링 방법을 적용하여 F1-score를 비교하였다. 제안 방법은 범주형 변수만 가진 데이터셋은 기존의 오버샘플링 방법에 비해 큰 차이를 보이지 않았으나, 고차원이거나 연속형 변수를 가진 데이터셋에서 기존 오버샘플링 방법보다 우수한 성능을 보였다.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/159569http://hanyang.dcollection.net/common/orgView/200000486280
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > INDUSTRIAL MANAGEMENT ENGINEERING(산업경영공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE