Repository at Hanyang University: 고차원 데이터의 특징선택을 위한 랜덤 포레스트 대리 모델

213 0

고차원 데이터의 특징선택을 위한 랜덤 포레스트 대리 모델

Other Titles: Surrogate Model of Random Forest for the Feature Selection of High Dimensional Data

Abstract: 고차원 저샘플 사이즈 데이터는 텍스트, 유전자, 바이러스 등 많은 분야에 있는 데이터이며 특징이 샘플 수 보다 훨씬 많기 때문에 분류 모델을 학습할 때 과적합이 일어날 수 있다. 그러므로 특징 선택이 필수이며 과적합을 피하기 위해 특징 중요도를 이용한 방법, 대리 모델을 이용한 방법 등이 제시되었다. 본 논문에서는 고차원 저샘플 데이터의 분류에서 과적합을 피하고 높은 분류 정확도를 내는 새로운 방법을 제시한다. 이 방법은 특징 조합과 분류 성능을 대리 모델로 학습하고 그 결과로 얻는 특징 중요도를 이용해 특징 선택 확률로 매핑한다. 이 확률을 이용해 다음에 탐색할 특징 조합을 생성하고 이 특징 조합의 분류 성능을 다시 대리 모델로 학습하며 특징 중요도를 계산하는 과정을 반복한다. 만약, 설정한 반복 횟수의 10%만큼의 횟수에서 분류 성능이 갱신되지 않는다면 탐색을 종료한다. 제안한 방법이 유효한 방법인지 알아보기 위해 7개의 고차원 저샘플 사이즈 데이터들을 이용해 제안 방법과 기존 연구들로 특징 조합을 선택하고 분류 모델을 학습한 결과의 정확도를 성능 척도로 비교하였으며, 제안 방법은 기존 연구들에 비해 우수한 성능을 보였다.

URI: http://hanyang.dcollection.net/common/orgView/200000653981 https://repository.hanyang.ac.kr/handle/20.500.11754/180092

Appears in Collections:: GRADUATE SCHOOL[S](대학원) > INDUSTRIAL MANAGEMENT ENGINEERING(산업경영공학과) > Theses (Master)

한양대학교 리포지터리는 국립중앙도서관 OAK 보급사업으로 구축되었습니다. Feedback 개인정보처리방침

Hanyang University repository