213 0

고차원 데이터의 특징선택을 위한 랜덤 포레스트 대리 모델

Title
고차원 데이터의 특징선택을 위한 랜덤 포레스트 대리 모델
Other Titles
Surrogate Model of Random Forest for the Feature Selection of High Dimensional Data
Author
진민기
Alternative Author(s)
Min-Ki JIN
Advisor(s)
허선
Issue Date
2023. 2
Publisher
한양대학교
Degree
Master
Abstract
고차원 저샘플 사이즈 데이터는 텍스트, 유전자, 바이러스 등 많은 분야에 있는 데이터이며 특징이 샘플 수 보다 훨씬 많기 때문에 분류 모델을 학습할 때 과적합이 일어날 수 있다. 그러므로 특징 선택이 필수이며 과적합을 피하기 위해 특징 중요도를 이용한 방법, 대리 모델을 이용한 방법 등이 제시되었다. 본 논문에서는 고차원 저샘플 데이터의 분류에서 과적합을 피하고 높은 분류 정확도를 내는 새로운 방법을 제시한다. 이 방법은 특징 조합과 분류 성능을 대리 모델로 학습하고 그 결과로 얻는 특징 중요도를 이용해 특징 선택 확률로 매핑한다. 이 확률을 이용해 다음에 탐색할 특징 조합을 생성하고 이 특징 조합의 분류 성능을 다시 대리 모델로 학습하며 특징 중요도를 계산하는 과정을 반복한다. 만약, 설정한 반복 횟수의 10%만큼의 횟수에서 분류 성능이 갱신되지 않는다면 탐색을 종료한다. 제안한 방법이 유효한 방법인지 알아보기 위해 7개의 고차원 저샘플 사이즈 데이터들을 이용해 제안 방법과 기존 연구들로 특징 조합을 선택하고 분류 모델을 학습한 결과의 정확도를 성능 척도로 비교하였으며, 제안 방법은 기존 연구들에 비해 우수한 성능을 보였다.
URI
http://hanyang.dcollection.net/common/orgView/200000653981https://repository.hanyang.ac.kr/handle/20.500.11754/180092
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > INDUSTRIAL MANAGEMENT ENGINEERING(산업경영공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE