584 0

결측 데이터의 결측치 대체 방법에서 효과적 투표방식 적용에 대한 연구

Title
결측 데이터의 결측치 대체 방법에서 효과적 투표방식 적용에 대한 연구
Other Titles
Imputation Method based on a Voting Manner for Missing Data
Author
최형철
Alternative Author(s)
Choi, Hyoung Chul
Advisor(s)
이기천
Issue Date
2019-02
Publisher
한양대학교
Degree
Master
Abstract
최근 결측치 처리에 있어서 학계의 동향은 결측치 대체, 그 중에서도 다중 대체 방법에 대한 연구가 활발히 진행 중인 상황이다. 결측치 처리 방법 중 결측치 제거 방법의 경우 원본 데이터의 정보 손실 및 결측치 제거 후 분석 과정 시의 편의 발생, 해당 변수의 분산 과대추정 등의 문제점으로 인해 사용상의 편리함에도 불구하고 다양한 결측치 대체 방법들에 그 자리를 내어주고 있다. 결측치 대체 방법 중 다중 대체 방법은 단일 대체 방법과 달리 대체된 데이터셋 분석 시의 편의 발생 및 데이터 변동성의 과소추정 등을 보완해주는 장점이 있다. 그러나, 다중 대체 방법에 대한 다양한 연구 결과에도 불구하고 데이터 크기의 지나친 증가, 데이터 변동성의 과대추정 등 여전히 보완해야할 약점이 많은 것이 현실이다. 본 연구에서는 이와 같은 다중 대체 방법의 약점을 보완하고자 투표방식 기반의 새로운 단일 대체 방법을 통해 두 방법의 약점을 모두 보완한 새로운 단일 대체 방법을 제시하고자 한다. 이를 위해 단일 대체 방법 중 우수한 성능을 보이는 missForest 알고리즘과, 다중 대체 방법 중 역시 우수한 성능을 보이며 또한 가장 빈번히 쓰이는 MICE 알고리즘으로부터 투표방식을 도입한 랜덤포레스트 기반의 새로운 단일 대체 방법을 제안하고 있다. 또한 대부분의 기존 연구들에서 변수의 유형에 따라 대체 방법이 달라지던 것과는 달리, 본 연구에서는 랜덤포레스트를 사용함으로서 결측치 대체 방법을 수치형 및 범주형, 두 변수 유형에 모두 적용할 수 있게 하였다. 이를 검증하기 위해 임의로 결측치를 발생시킨 완전 데이터와 실제 결측 데이터 두 가지 경우에 대한 실험을 진행하였고, 두 경우 모두 본 연구에서 제안한 방법이 우수한 성능을 보인다는 것을 검증하였다.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/99312http://hanyang.dcollection.net/common/orgView/200000434826
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > INDUSTRIAL ENGINEERING(산업공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE