650 0

Visualizing nonlinear Support Vector Machine predictive models and a prognostic study from irregular and unbalanced diabetic nephropathy data

Title
Visualizing nonlinear Support Vector Machine predictive models and a prognostic study from irregular and unbalanced diabetic nephropathy data
Other Titles
비선형 Support Vector Machine 예측 모델의 시각화와 비규칙, 비균형적 당뇨병성 신장합병증 데이터에서의 예후 연구
Author
조백환
Alternative Author(s)
Cho, Baek-Hwan
Advisor(s)
김선일
Issue Date
2007-02
Publisher
한양대학교
Degree
Doctor
Abstract
최근 수십년동안 데이터 마이닝과 기계 학습 분야의 눈부신 발전으로 인하여, 컵퓨터 보조진단, 전문가 시스템, 및 예후 연구등 다양한 의학적 문제에 대한 접근이 이루어져 왔으며, Support Vector Machine (SVM)은 분류 및 예측 분야에 널리 이용되어온 알고리즘이다. SVM을 이용한 비선형 예측모델은 높은 성능을 발휘하지만, 그 결과에 대한 명확하고 직관적인 해석이 힘들어 임상의사가 실질적으로 접하기에 많은 어려움이 따른다. 즉, 임상의사들은 어떤 특징점이 결과에 어떻게 어느정도 영향을 미치는지를 알기를 원한다. 이런 요구를 어느 정도 해결하기 위하여, 그리고 차원의 저주 (curse of dimensionality)를 해결하기 위하여 특징점 선택 (feature selection) 기법이 도입되어 왔지만, 이 기법도 비선형 모델에서는 그 적용이 매우 힘들다. 따라서, 이 논문에서는 먼저 VRIFA (Visualization for Risk Factor Analysis)라는 새로운 시각화 시스템을 소개한다. VRIFA는 는 nomogram을 이용하여 SVM의 결과를 시각화하여 해석을 용이하게 하며, LRBF (Localized Radial Basis Function) 커널을 이용한 비선형 예측 모델도 적용이 가능하다. 뿐만 아니라, 비선형 예측 모델에서의 특징점 선택 기법을 적용할 수 있는 장점이 있다. 또한, 이 논문에서는 SVM의 시각화 방법을 이용하여 당뇨병성 신장합병증을 예측하고 그 위험인자를 분석한다. 당뇨병은 여러가지의 병인을 갖는 대사질환의 일종이며, 만성적인 고혈당을 특징으로 한다. 한국에서는 약 8.4%의 인구가 당뇨병을 앓고 있으며 한국인의 질병부담 중에서 1위를 차지하고 있다. 이러한 당뇨병은 심혈관질환, 신장질환, 다리절단, 시력감퇴를 포함한 여러 가지 합병증을 동반하게 되는데, 심각한 경우 심한장애나 사망에까지 이를 수 있다. 그중에 당뇨병성 신장합병증은 대표적인 예라 할 수 있다. 현재까지 당뇨병성 신장합병증의 위험인자를 찾기 위한 많은 연구가 진행되어 왔으며, 지속적인 고혈압, 고혈당, 백혈구수의 증가, 혈소판 증가, 고지혈증 등이 관련되어 있다고 알려져 왔다. 그러나, 대부분의 선행연구들은 환자군과 대조군에서 이들 위험인자의 평균치를 단순 비교한 결과이다. 신장기능의 퇴화는 개인마다 상당한 차이를 나타내며, 당뇨병성 신장합병증은 몇가지의 결정적인 요인으로 설명되기 보다는 여러 가지 복잡한 요인들에 의하여 발병되는 것이라고 여겨진다. 따라서 단순한 통계기법을 통한 당뇨병성 신장합병증을 예측은 매우 어렵다. 본 연구에서는 당뇨병성 신장합병증을 예측하기 위하여 여러 가지 데이터 마이닝 기법을 도입하며, 이를 통한 위험인자를 분석한다. 서울의 한 대학병원에 내원한 당뇨병을 앓고 있는 외래환자의 최근 10년간의 데이터를 획득하였으며, 이 데이터는 4321명의 제 2형 당뇨환자의 20가지 검사결과와 각종 환자정보를 포함한다. 환자마다 내원시에 받은 검사항목이 다르고, 내원한 시간 간격이 다르기 때문에 이 데이터는 상당한 불규칙성을 가지고 있다. 이를 해결하기 위하여 전처리과정을 수행하여 각 환자마다 184개의 특징점들을 추출하였으며, 최종적으로 연구에 사용된 환자데이터는 33명의 양성 환자와 259명의 음성 환자를 포함한 총 292개이다. 당뇨병성 합병증을 예측하기 위하여 로지스틱 회귀분석 및 Support Vector Machine (SVM) 등의 분류기법(classification) 의 성능을 비교하였으며, 양성 환자와 음성 환자의 데이터 갯수의 불균형으로 인한 한쪽으로 치우친 결과 (skewed result)를 방지하기 위하여 cost sensitive 학습을 SVM에 적용하였다. 이와 함께, 쓸모없거나 예측에 방해되는 특징점들을 제거하기 위하여 몇 가지의 특징점 선택 (feature selection) 방법을 적용하였다. 최종적으로, Receiver Operating Characteristics 커브의 커브아래면적(AUC)을 이용하여 제안된 방법들의 성능을 비교하였으며, VRIFA를 적용하여 예측모델에서 위험인자를 분석할 수 있도록 하였다. 연구결과 몇 가지의 특징점 선택 방법과 결합된 SVM 분류기법이 0.96이 넘는 AUC를 나타내었는데, 그 중에서 VRIFA를 이용한 특징점 선택방법은 높은 예측률 외에도, 그래픽을 이용한 시각화를 통하여 예측 모델에 대한 해석을 직관적으로 제시할 수 있었다. 선택된 특징점들은 대부분 선행연구결과들과 유사한 양상을 나타내었으며, 특히 양성 환자들의 경우 음성 환자들에 비하여 백혈구 수와 단백뇨 수치가 이미 높게 나타나고 있는 것을 확인할 수 있었다. 본 논문에서 저자는 당뇨병성 합병증을 예측하였을뿐만 아니라, 시각화를 통한 위험인자도 분석하여, 임상 의사들이 환자들에 대한 효과적이고 적절한 치료전략을 세우는데 도움을 줄 수 있도록 하였다. 본 연구는 당뇨병성 합병증을 예측하기 위하여 데이터 마이닝 기법을 적용한 최초의 시도라고 여겨지며, 향후 무궁무진한 관련연구를 진행할 수 있을 것이라 판단된다.; Recent progresses in data mining and machine learning have promoted computer-based approaches to solve medical problems, e.g., computer-aided diagnosis (CAD), expert systems, and prognostic studies. Support Vector Machine (SVM), one of the most actively developed predictive models in machine learning community, has been successfully applied to a number of medical problems. Although SVMs support nonlinear prediction models for accurate prediction, such nonlinear models have difficulty in visualization and thus hard for physicians to interpret the results clearly. Another disadvantage of nonlinear models is its limitation in feature selection. Feature selection is another important task that is to rank or identify features that mostly affects the prediction results. In a practical clinical situation, physicians may want to find risk factors for a disease, that is, they want to understand how the prediction result would change when a feature value changes. There are various feature selection methods for linear models. However they are hardly applicable to nonlinear models. To apply nonlinear modeling techniques on medical domain, model visualization and feature selection is critical, without which physicians would not appreciate. This thesis introduces a new visualization system, VRIFA (Visualization for Risk Factor Analysis), that applies nomogram and Localized Radial Basis Function (LRBF) kernel, in order to visualize the results of nonlinear SVM and improve the interpretability while maintaining high prediction accuracy. Feature selection can also be done using the nomogram and SVM with LRBF kernel. This thesis applies the SVM visualization method to real medical problem, i.e., diabetic nephropathy. Diabetes Mellitus is a metabolic disorder of multiple etiologies characterized by chronic hyperglycemia (high blood sugar level) and the first leading cause of burden of disease in Korea. Diabetes can cause devastating complications including cardiovascular diseases, kidney failure, leg and foot amputations, and blindness, which often result in disability and death. Diabetic nephropathy is a common diabetic complication and a leading cause of death in diabetics. There have been many researches on the risk factors of diabetic nephropathy. Those include the long-term high blood glucose, high blood pressure, elevated white blood cell count, elevated platelet level, and hyperlipidemia. However, most of those prognostic researches compared mean values of independent predictors between diabetic nephropathy patients and control group. The decline in kidney function varies considerably between patients, and determinants of the diabetic nephropathy have not been clearly identified. Therefore, it is very difficult to predict diabetic nephropathy accurately with simple statistical approaches. This thesis introduces a new approach to predict the onset of diabetic nephropathy using various machine learning technologies. The risk factor analysis of diabetic nephropathy is also an important goal of this thesis. The author collected data of all diabetic patients who have attended outpatient clinic in a university hospital in Seoul, Korea consecutively for up to 10 years. The total 4321 adult patients with type 2 diabetes have taken several physical and laboratory examinations out of 20 items. In order to deal with irregular, incomplete, or missing data in the clinical setting, the author first took a preprocessing to extract 184 features for one patient, resulting in shrinking the data record into 292 (33 positives and 259 negatives). Several classification algorithms such as logistic regression, ridge logistic regression, linear SVM, and nonlinear SVM were performed to predict diabetic nephropathy. In the SVM training, cost sensitive learning was employed to deal with the unbalanced dataset. During the training phase of all the classification methods, several feature selection methods were also applied to eliminate the unimportant and disturbing features. Finally, the author took a knowledge evaluation with comparing performances of all the combinational methods and interpreting the outputs using VRIFA. The SVM classification with some feature selection methods (sensitivity analysis, SVM-RFE, and Nomogram-RFE) showed the best predictive performances (over 0.96) in terms of area under the curve (AUC) of Receiver Operating Characteristics (ROC) curve. The Nomogram-RFE with SVM (which uses VRIFA system) have an advantage that it can visualize the effect of each feature on the prediction output intuitively, where most of the selected features showed the consistent tendencies with previous researches. Especially, the positive patients had higher values than negatives in white blood cell counts and microalbumin values. In this thesis, the author has proposed not only predicting diabetic nephropathy, but also giving information about risk factor analysis to physicians to plan efficient and proper treatment strategies. This study, to the author’s knowledge, is the first trial to apply the machine learning technology to diabetic complications, and it might have infinite applications in the future.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/150340http://hanyang.dcollection.net/common/orgView/200000405599
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > DEPARTMENT OF BIOMEDICAL ENGINEERING(의용생체공학과) > Theses (Ph.D.)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE