287 0

결측 대치의 신뢰도를 고려한 분류모델 연구

Title
결측 대치의 신뢰도를 고려한 분류모델 연구
Author
김승우
Advisor(s)
김병훈
Issue Date
2022. 8
Publisher
한양대학교
Degree
Master
Abstract
일부 개체의 특징값이 수집되지 않은 데이터를 결측 데이터 혹은 불완전 데이터라고 한다. 결측치는 다양한 분야에서 발생하지만 대다수의 데이터 마이닝 알고리즘은 결측치가 존재하지 않는 완전한 데이터를 기반으로 학습이 된다. 이를 위해 결측치 대치를 위한 여러 연구가 이루어져 왔다. 결측치 문제를 해결하기 위한 방법으로는 대표적으로 단일 대치방법과 다중 대치 방법이 있다. 단일 대치방법은 결측치를 하나의 값으로 대치하는 방법이고 다중 대치 방법은 결측치를 여러 값을 생성하여 대치하는 방식으로써, 결측치 대치의 결과로 다수의 데이터 셋이 생성되며 대표적인 방법론은 MICE, Boosting 등이 있다. 최근에는 딥러닝 방법론인 생성적 적대 신경망을 활용한 결측치 대치(generative adversarial imputation network, GAIN)를 활용한 결측치 대치 문제가 제안되었다. GAIN은 딥러닝 생성모델로 가짜 데이터를 생성하는 생성자와 이를 진짜와 가짜를 구별하는 판별자가 서로 학습하며 관측데이터의 분포에 따라 진짜 같은 가짜 데이터를 생성한다. 생성자는 결측치가 아닌 관측치를 보고 진짜 같은 가짜 데이터를 생성하고 판별자는 결측치와 관측치를 구별할 수 있게 학습한다. 하지만 위의 기존 연구들은 대치 값이 실제 값과 얼마나 유사한지 차이를 추정할 수 없다는 한계가 존재한다. 본 연구에서는 결측치의 한계를 해소하기 위해 GAIN을 활용한 신뢰도 기반의 다중 데이터 대치방법론을 제안한다. 이를 위해 GAIN을 이용하여 다중대치를 수행하고 이에 대한 신뢰도를 추정하는 방법을 제안한다. 또한, 결측 처리된 데이터를 학습할 때에, 제안된 신뢰도를 고려하는 신뢰도 분류기 모델을 제안한다. 제안 방법의 유효성을 확인하기 위해 4개의 데이터셋에 제안 방법과 기존의 결측 대치 방법을 적용하여 정확도를 비교하였다. 제안 방법은 결측 비율이 5% 내외 일 경우는 다른 방법론들과 큰 차이를 보이지 않았지만, 20% 이후는 기존의 방법보다 우수한 성능을 보였다.
URI
http://hanyang.dcollection.net/common/orgView/200000628803https://repository.hanyang.ac.kr/handle/20.500.11754/174480
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > INDUSTRIAL MANAGEMENT ENGINEERING(산업경영공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE