365 0

A study on the development of asthma disease prediction model using penalized regression and machine learning methods

Title
A study on the development of asthma disease prediction model using penalized regression and machine learning methods
Other Titles
벌점화 회귀분석 모형 및 기계학습 모형을 이용한 천식 질환 예측 연구
Author
최용준
Advisor(s)
최성경
Issue Date
2023. 2
Publisher
한양대학교
Degree
Master
Abstract
A great success of genome-wide association study (GWAS) can give us the opportunity to identify the genetic variants associated with human disease. Recently, many studies used various statistical methods such as penalized and machine learning methods to predict diseases. This study compares the performance of various penalized and machine learning methods in predicting asthma disease risk using the Korean Chip (KORV1.1) from Korean Genome and Epidemiology Study (KoGES) cohorts. First, we selected single nucleotide polymorphisms (SNPs) by using logistic regression to adjust confounding factors in epidemiology. Then, we used the penalized and machine learning methods of ridge, least absolute shrinkage and selection operator (Lasso), elastic net (Enet), smoothly clipped absolute deviation (SCAD), support vector machine (SVM), random forest (RF), and boosting to develop the disease risk prediction models. And then, the predictive performances were compared using the area under curve (AUC) for the receiver operating characteristic (ROC), which is the most widely used method for evaluating prediction performance. From this study, our results comprehensively show that the penalized methods calculate with higher accuracy than the machine learning methods for disease prediction. Furthermore, we believe that our study makes a significant contribution to the improvement in bioinformatics because the computing time of the penalized and machine learning methods was also calculated, and it was found that the computing time increases in relation to the sample size and the number of SNPs.|지난 수십 년 동안 유전체 분석 기술이 발달하면서 인간의 특성 혹은 질환과 유전적 관계가 있는 유전자를 발굴하는 대표적인 연구 방법인 전장 유전체 연관분석(genome-wide association study, GWAS)의 큰 발전은 질병과 관련한 유의미한 유전적 변이 마커들의 발굴과 여러 복합 질환 및 특성들에 대한 이해와 치료에 큰 기여를 하였다. 특히, 최근에 천식과 관련된 다수의 GWAS 연구에서 얻어진 유전체 변이 마커들을 이용한 예측 모형 개발 연구가 활발히 이뤄지고 있다. 그중 회귀 모형과 기계 학습 방법 등 다양한 통계 모형을 이용하여 복합 질환을 예측하는 많은 연구결과들이 발표되고 있다. 천식은 만성 기저질환으로 기도에 과도한 염증반응으로 기도가 좁아지며 호흡곤란, 기침 등이 나타난다. 천식의 원인은 환경적, 면역학적, 유전적 다양한 요인들이 함께 상호작용하여 발생하는 대표적인 복합 질환이다. 본 논문에서는 한국인 유전체 역학조사 사업 (Korean Genome and Epidemiology Study, KoGES)의 도시 기반 코호트(Health examines study, HEXA cohort), 지역사회 기반 코호트(Korea association resource, KARE cohort), 농촌 기반 코호트(Cardiovascular disease association study, CAVAS cohort)의 한국인 칩(KORV1.1) 유전체 데이터를 분양받아 천식 위험도를 예측하는 모델을 구축하여 다양한 벌점화 회귀모형 및 기계학습 모형의 성능을 비교하였다. 먼저 연구 대상자에 대한 인구통계학 특성 분석은 R software를 사용하여 카이제곱 검정 및 t 테스트 검정을 이용하여 분석하였다. 다수의 유전체 마커들 중에서 천식과 관련 있는 단일염기다형성(Single Nucleotide Polymorphism, SNP)을 선별하기 위하여 나이, 성별, 체질량지수, 흡연 여부, 알레르기 여부, 10개의 주성분(Principal component, PC)과 함께 로지스틱 회귀 분석을 수행하였다. 천식 질환 예측 모형으로는 벌점화 회귀모형 중 ridge, least absolute shrinkage and selection operator(Lasso), elastic net(Enet), smoothly clipped absolute deviation(SCAD)과 기계학습 모형 중 support vector machine(SVM), random forest(RF), boosting 방법을 사용하여 질병 위험 예측 모델을 개발하였다. 판별분석 분야에서 전통적으로 판별의 정확도, 분류에 사용되는 변수 또는 모형의 성능을 평가하기 위해 가장 널리 사용되는 측도인 ROC(receiver operating characteristic) 곡선의 밑면적을 의미하는 AUC(area under curve)를 사용하여 구축한 여러 모델의 예측 성능을 비교 평가 분석하였다. 본 연구에서 벌점화 회귀모형과 기계학습의 성능을 비교했을 때, 종합적으로 벌점화 회귀모형이 효율적이며 더 높은 정확도를 갖는 것을 확인하였다. 또한 벌점화 회귀모형과 기계학습 모형의 분석 시간이 연구 대상자 및 SNP의 수와 관련하여 계산 시간이 증가하는 것을 확인하였다. 이와 같은 결과를 통해 본 연구는 생물정보학 발전에 크게 기여할 수 있을 것으로 기대되며 후속 연구에서 딥러닝 및 부트스트랩과 같은 최신 기술과 더 다양한 유전체 데이터 세트를 이용하여 작업을 확장하려 한다.
URI
http://hanyang.dcollection.net/common/orgView/200000649614https://repository.hanyang.ac.kr/handle/20.500.11754/179807
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > APPLIED ARTIFICIAL INTELLIGENCE(인공지능융합학과) > Theses(Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE