246 0

서열 특성에 기반하여 심층 신경망을 이용한 단백질 기능 예측

Title
서열 특성에 기반하여 심층 신경망을 이용한 단백질 기능 예측
Other Titles
Protein function prediction using deep neural networks based on sequence features
Author
배의현
Alternative Author(s)
Bhae, Eui Hyun
Advisor(s)
노미나
Issue Date
2023. 2
Publisher
한양대학교
Degree
Master
Abstract
단백질은 생명체를 이루는 물질로 단백질의 기능을 밝히는 것은 생명 활동의 이해에 중요하다. 단백질의 기능은 실험을 통해 증명해야 한다. 하지만 NGS (Next Generation Sequencing)의 발달에 따라 다수의 단백질 서열이 밝혀져 모든 단백질의 기능을 실험적으로 밝히기 어렵다. 따라서 실험이 아닌 방식으로 단백질 기능을 예측하는 것이 중요하다. 기존의 유사도 방식은 이미 알려진 단백질에 대해 높은 정확도를 보이지만, 기능이 알려진 단백질과의 유사도가 낮은 단백질에 대한 정확도가 떨어진다. 이를 해결하기 위한 데이터베이스 증가는 새로운 문제를 유발할 수 있다. 딥러닝 방식은 기존 유사도 방식에 대해 좋은 해결책이다. 딥러닝은 단백질의 다양한 특성을 통해 단백질의 기능을 예측한다. 단백질의 아미노산 서열을 제외한 다른 특성은 잘 알려진 단백질에 국한돼 서열만을 활용한 단백질의 기능 예측이 중요하다. 또한, 기존의 예측 모델은 GO (Gene Ontology) label을 집중적으로 예측한다. KO (KEGG Ortholog)는 KEGG (Kyoto Encyclopedia of Genes and Genomes)의 단백질 기능 분류로 단백질의 기능뿐만 아니라 대사 과정에서 유전자의 기능을 확인할 수 있다. 이번 연구에서는 딥러닝 방식의 KO 예측을 통한 유사도 기반 예측의 보완에 초점을 맞췄다. SwissProt 데이터에서 앙상블모델인 DeepGOPlus가 0.998의 Fmax로 가장 성능이 좋았으며 단독 모델인 DIAMOND score와 DeepGOCNN이 0.997과 0.993으로 높은 Fmax를 보였다. 딥러닝 모델은 유사도가 높은 단백질에 대해 DIAMOND score보다 성능이 떨어졌지만, DIAMOND score가 예측하지 못했던 20%보다 유사도가 낮은 단백질의 기능을 예측할 수 있었다. DeepGOCNN은 단백질 서열의 도메인 구조를 포함한 넓은 영역의 특성을 인식해 단백질 기능 예측에 사용했다. 메타지놈 환경에서 DeepGOCNN은 DIAMOND score가 예측한 것보다 1.63배의 단백질 기능을 예측했다. 딥러닝을 활용함으로써 유사도 방식으로 알기 어려웠던 단백질의 기능을 밝히는 데 도움을 줄 수 있다.| Revealing the function of protein is important for wide range of biological problems. The function of proteins must be demonstrated through experimental evidences. However, with the breakthrough of NGS, a number of protein sequences have been acquired, making it difficult to conduct experimental for every protein. Therefore, it is important to predict protein function without experiment. Homology-based methods show high accuracy for known proteins, but they are less accurate for proteins with low sequence similarity to known proteins. Deep learning-based methods are a good solution to existing homology-based methods. Deep learning predicts the function of proteins through various features of proteins. Except for the amino acid sequence, other features are limited to well-known proteins, so predicting the function of proteins using only the sequence is important. In this study, we focused on the complementation of limits from homology methods by deep learning. In SwissProt data, the ensemble model DeepGOPlus performed best with an Fmax of 0.998, while the single models DIAMOND score and DeepGOCNN showed high Fmax of 0.997 and 0.993. The Fmax of deep learning model was less that of DIAMOND score for proteins with high similarity, but deep learning method was able to predict the function of proteins with identity lower than the 20% that the DIAMOND couldn’t. DeepGOCNN recognized the features of the domain structure from the protein sequence, and utilize it to predict protein function. In the metagenome sample, DeepGOCNN predicted 1.63 times more the protein function as predicted by DIAMOND score. Predicting the function of proteins through deep learning provides an overall understanding of proteins by revealing the functions of proteins that were previously unpredictable by homology-based search.
URI
http://hanyang.dcollection.net/common/orgView/200000654858https://repository.hanyang.ac.kr/handle/20.500.11754/179813
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > ARTIFICIAL INTELLIGENCE(인공지능학과) > Theses(Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE