987 0

One Class SVM-Isolation Forest 를 이용한 이상치 탐지

Title
One Class SVM-Isolation Forest 를 이용한 이상치 탐지
Author
조소연
Alternative Author(s)
Soyeon Jo
Advisor(s)
정재홍
Issue Date
2022. 8
Publisher
한양대학교
Degree
Master
Abstract
정상 데이터와 패턴이 다른 이상치가 존재할 경우, 통계 모형을 통해 데이터 분석시 잘못된 결과를 도출하기도 한다. 따라서, 모델 학습 과정 전에 데이터 구조를 파악하여 이상치를 탐지 하는 과정은 필수적이다. 하지만, 고차원 데이터에서 이상치는 시각적으로 확인하기 어렵고 데이터 밀도가 희소해지는 차원의 저주 문제를 가져 다차원의 노이즈 효과로 인해 판별하기 어렵다. 특히, 고차원 데이터는 데이터 구조를 파악하는 과정에서 많은 계산량이 필요하다 본 논문에서는 One-Class Support Vector Machine (One-Class SVM)와 Isolation Forest (IForest) 결합한 One Class SVM-Isolation Forest (OCSVM-IForest)를 제안하여 이상치를 탐지하고자 한다. One-Class SVM 은 차원의 저주를 해결하고 데이터 분포를 잘 반영하는 특성을 가지고, IForest는 빠르게 이상치를 탐지한다. 두 모델의 결합은 고차원 데이터에서 빠르게 이상 탐지를 가능하게 한다. OCSVM-IForest 는 IForest의 랜덤 분할 가지치기 기준을 One-Class SVM 으로 수행하여 데이터 분할 기준의 설명력을 높인다. 특히, One-Class SVM은 커널 선택을 통해 비선형 분할이 가능하여, IForest의 선형 분할 가지치기 한계를 보완하고, 적은 분할로 이상치를 빠르게 선별하여 계산의 효율성을 높인다. OCSVM-IForest 를 실제 데이터에 적용해보았을 때, 복잡한 계산이 필요한 지역적 이상치와 고차원 데이터에서 이상치를 경쟁 모델들보다 더 정확하게 선별하였다 . 특히, 기존의 방법론들과 비교할 때 데이터 크기에 민감하지 않아 데이터 크기가 달라져도 성능을 유지하였다. 또한, 모델의 안정성 부분에서도 기존의 방법론들에 비해 가장 작은 표준 편차를 가져 가장 안정적인 모델 성능을 발휘하였다.
URI
http://hanyang.dcollection.net/common/orgView/200000627554https://repository.hanyang.ac.kr/handle/20.500.11754/174649
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > APPLIED STATISTICS(응용통계학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE