데이터 마이닝의 지도학습 기법 성능향상을 위한 불일치 패턴 모델

데이터 마이닝의 지도학습 기법 성능향상을 위한 불일치 패턴 모델
Other Titles
Inconsistency Pattern Modeling to Improve Supervised Learning in Data Mining
Alternative Author(s)
Hur, Joon
Issue Date
본 논문은 데이터 마이닝의 기법 중 가장 잘 알려진 지도학습 기법의 성능 향상을 위한 새로운 혼합(Hybrid) 및 결합(Combined) 기법인 불일치 패턴 모델(또는 불일치 원인 패턴 모델 혹은 오차 패턴 모델)에 대한 연구 논문이다. 불일치 패턴 모델이란 2개 이상의 기법 중 데이터의 사례(record)별로 더 잘 맞출 수 있는 기법을 메타(meta) 분류하는 모델(즉, 불일치 패턴 모델)을 개발하여, 최종적으로는 기존의 기법보다 더 좋은 분류 정확도 및 예측 향상율을 기대하는 기법을 의미한다. 본 논문은 관련의 연구에 대한 검토와 불일치 패턴 모델의 알고리즘 설명 그리고 이에 대한 성능의 향상을 기존의 다른 기법들과의 비교와 데이터 특성에 따른 성능의 변화를 하는 실험의 수행과 실험 결과를 기술하는 것으로 크게 구성이 되어져 있다. 실험은 첫 번째로 기존의 단일한 지도학습 기법이나 결합 기법보다 성능의 효율성을 검증하기 위하여, 기존의 단일기법 중에서 의사결정나무 추론 기법인 C5.0과 C&RT 그리고 신경망(Neural Networks) 분석, 그리고 로지스틱 회귀분석 및 판별 분석과 같은 대표적인 데이터 마이닝의 지도학습 기법을 이용하여 불일치 패턴 모델을 생성하여 보고, 기존 단일 기법보다 성능이 우수함을 통계적으로 검증을 하였다. 두 번째로 단일 기법 이외에 기존의 결합 모델인 배깅(Bagging), 부스팅(Boosting) 그리고 스태킹(Stacking) 기법과의 성능을 비교하여 보고, 성능이 우수함을 23개의 실제 데이터 및 공신력 있는 공개 데이터를 이용하여 증명하여 보였다. 추가적으로 기존의 결합 모델을 불일치 패턴 모델과 통합 활용하여, 예측 정확도의 성능이 더 향상됨을 부가적인 실험을 통해서 확인하였다. 세 번째로는 2개의 기법만을 이용한 불일치 패턴 모델을 만드는 것이 아니라 3개의 지도학습 기법을 이용하여 불일치 패턴 모델을 생성하여 보고, 이에 따른 정확도의 성능 향상을 실험을 통해 분석을 하였다. 다음 네 번째 실험에서는 데이터 특성에 따라서 불일치 패턴 모델의 성능 변화를 알아보기 위해서 5개의 데이터 특성 지표를 선정한 다음 데이터의 특성에 따른 정확도 향상율의 변화를 분석하였다. 다섯 번째 실험으로는 기법 간의 거리를 다차원 척도법(Mutil-Dimensional Scaling: MDS)기법을 이용하여 위치도를 작성 후 이들 간의 거리가 정확도 예측력에 미치는 영향에 대한 실험을 수행하였다. 마지막 실험으로 데이터 수의 임의적(random)인 감소에 따라서 불일치 패턴 모델의 성능이 어떻게 변화되는지도 일부 데이터를 이용하여 실험을 수행하여, 결론적으로는 데이터 및 기법 간의 차이가 많이 발생하고 이질적인 경우에 불일치 패턴 모델의 성능이 많이 향상된다는 것을 실험을 통해 분석해 보았다. 본 논문의 결론 부분에서는 논문에서 제시한 불일치 패턴 모델이 실제 산업계에서 잘 활용될 수 있을 것으로 예상되는 분야에 대한 제안과 향후 본 연구에서는 미진하여 더 보완 연구를 해야 할 부분에 대하여 정리하였다.; This paper proposes Inconsistency Pattern Modeling (IPM) which is a hybrid data mining approach to improve the classification accuracy. The proposed IPM aims to improve prediction accuracy when the data type of a target variable is binary. The first step of IPM is the random separation of training data sets to two subsets. The first training data set is used to generate two classifiers using two different supervised learning algorithms. The generated two classifiers are applied to the other subset. The algorithm extracts a subset of the second training data set that are predicted inconsistently by two classifiers. The extracted data subset is used to generate discrimination models which can predict when each classifier works better. The learned discrimination models are called inconsistency pattern models and are used to merge the prediction results of two different methods in order to generate final prediction. The proposed method has been tested using 15 real-world data sets and 8 public data sets(total 23 data sets). The experimental results show that the overall accuracy of the proposed method is better than the use of single learning algorithms(such as MLP, Decision Rule Induction and Logistic Regression) and the existing combined model(such as Bagging, Boosting and Stacking). In particular, there are high performance improvements when the prediction inconsistency ratio between two different learning techniques is high. The proposed method can contribute in situations in which the accuracy of prediction is very important. As a defect, the proposed method requires more time and computing process than the existing methods. Also, the proposed method is very dependent on the performance of the inner single methods. However, because the proposed method is very efficient to improve the accuracy in supervised learning of data mining, the proposed model is especially expected to be effective for the fraud detection case, data mining projects in medical industry and so on.
Appears in Collections:
Files in This Item:
There are no files associated with this item.
RIS (EndNote)
XLS (Excel)


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.