230 0

Deep Learning based Peptide Detectability Prediction in Shotgun Proteomics

Title
Deep Learning based Peptide Detectability Prediction in Shotgun Proteomics
Other Titles
질량분석기 기반 단백체학에서 딥러닝을 활용한 펩타이드의 검출률 예측
Author
손주호
Alternative Author(s)
손주호
Advisor(s)
백은옥
Issue Date
2022. 2
Publisher
한양대학교
Degree
Master
Abstract
펩타이드의 검출률을 예측하는 것은 질량분석기 기반 단백체학에서 유용하다. 이는 단백질 추론이나 비표지 정량 등의 다양한 데이터 분석, 또는 데이터베이스 검색에 의한 펩타이드 동정을 위해 펩타이드 검출률에 기반해 데이터베이스 사이즈를 줄일 수 있다. 하지만 펩타이드 검출은 단백질의 준비, 소화, 분리, 이온화, 그리고 질량분석기에서 전구체가 선택되는 동안 많은 변수에 영향받는다. 기계학습, 특히 심층학습 기반의 다양한 방법들이 펩타이드의 서열이나 물리 화학적 특성으로부터 검출률을 예측하도록 제안됐다. 하지만 기존의 방법론들은 펩타이드의 검출 과정에 많은 주의를 기울이지 않았다. 이에, 우리는 장단기메모리 구조로 펩타이드의 서열과 그 절단부위에 기반해 펩타이드의 소화과정을 표현하는 과정을 포함하는 종단 간 신경망을 제안한다. 특히, 전체 단백체한 분석 모델에서 소화율을 예측하는 모델만 독립적으로 학습하는 것은 다중 레이블 문제로 펩타이드의 검출률 예측에 기여할 수 없다는 것을 발견하여 전체적인 접근법이 필요했기에 종단 간 신경망을 제안했다.| Predicting peptide detectability can be useful in mass spectrometry based high-throughput proteomics. It can help various data analyses such as protein inference and label-free quantification perform better or database size reduction based on peptide detectability may be possible for peptide identification by database search. But it remains a challenge because peptide detection is affected by numerous parameters during protein sample preparation, digestion, separation, ionization, and precursor selection in mass spectrometry. Various methods based on machine learning, especially deep learning, have been proposed to predict detectability of peptides from their sequences or physicochemical properties, but they did not pay much attention to the detection process of peptides. Here, we present an end-to-end network model, which contains a module representing the digestion process of peptides with an LSTM architecture based on peptide and cleavage site sequences as well. In particular, we have found out that learning the digestibility model separately from the entire proteomic analysis model might be seriously flawed due to a multi labelling problem, and a more holistic approach was essential, thus an end-to-end network model is proposed.
URI
http://hanyang.dcollection.net/common/orgView/200000590881https://repository.hanyang.ac.kr/handle/20.500.11754/167485
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE(컴퓨터·소프트웨어학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE