16 0

결측값 대체와 랜덤 포레스트 모형을 이용한 패혈증 자료 분석

Title
결측값 대체와 랜덤 포레스트 모형을 이용한 패혈증 자료 분석
Other Titles
Analysis of Sepsis data using imputation methods and Random Forest model
Author
목진형
Alternative Author(s)
Mok, Jin Hyung
Advisor(s)
최정순
Issue Date
2019. 8
Publisher
한양대학교
Degree
Master
Abstract
본 연구에서는 결측값 대체의 효율성을 확인하기 위해 2014년부터 2017년까지 연세대학교 세브란스 병원에 방문한 환자들의 일반 혈액 검사 (Complete Blood cell Count, CBC) 자료를 이용하여 다양한 결측값 대체 방법을 적용한 후 패혈증 진단 예측 모형의 성능을 비교하였다. CBC 자료에는 환자들마다 73개의 혈액 성분 검사 수치 결과가 있는데 결측값이 포함되어 있다. 여기서 6가지 결측값 대체 방법을 이용하여 결측값을 대체하고 결측값을 대체하기 전과 후의 패혈증 진단 예측 성능을 비교하였다. 본 논문에서 사용한 결측값 대체 방법으로는 평균 대체 (mean impuatation), 중앙값 대체 (median imputation), 예측 평균 일치 대체 (predictive mean matching imputation), K-최근접 이웃 대체 (K-nearest neighbors imputation), 가중 K-최근접 이웃 대체 (weighted K-nearest neighbors imputation) 그리고 베이지안 주성분 분석 대체 (Bayesian principal component analysis imputation) 방법을 이용하였다. 그리고 패혈증 진단 예측을 위해 로지스틱 회귀 (Logistic Regression), 서포트 벡터 머신 (Support Vector Machine, SVM), 랜덤 포레스트 (Random Forest)를 이용하여 성능을 비교하였다. 본 연구에서는 변수별 결측 비율에 따라 자료를 구성하여 분석을 진행하였다. 결측값 대체 후 패혈증 진단 예측 모형이 결측값을 대체하기 전 패혈증 진단 예측 모형보다 더 좋은 성능을 보였고, 랜덤 포레스트를 이용한 패혈증 진단 예측 성능이 로지스틱 회귀와 서포트 벡터 머신보다 우수했다. 그리고 변수별 결측값 비율이 높은 자료에서 결측값 대체의 효과는 더 크게 나타났음을 확인하였다.
URI
http://dcollection.hanyang.ac.kr/common/orgView/000000110412http://repository.hanyang.ac.kr/handle/20.500.11754/109103
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > APPLIED STATISTICS(응용통계학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE