321 0

NovoRank: Machine Learning Based Post-processing for Performance Improvement in De Novo Peptide Sequencing

Title
NovoRank: Machine Learning Based Post-processing for Performance Improvement in De Novo Peptide Sequencing
Other Titles
머신러닝 기반 후처리를 통한 드노보 펩타이드 시퀀싱 성능 개선
Author
서장호
Advisor(s)
백은옥
Issue Date
2022. 8
Publisher
한양대학교
Degree
Master
Abstract
질량 분석 기반 단백체학에서 펩타이드를 동정하기 위해, 탠덤 질량 스펙트럼을 데이터베이스 검색이나 드노보 시퀀싱 도구를 사용하여 분석한다. 데이터베이스 검색 방법과 달리 드노보 시퀀싱은 서열 데이터베이스를 사용하지 않고, 탠덤 질량 스펙트럼으로부터 직접 펩타이드 서열을 추론한다. 드노보 시퀀싱 방법은 실질적으로 무한에 가까운 탐색 공간으로 인해 종종 펩타이드를 잘못 동정하고, 펩타이드 동정 성능은 데이터베이스 검색 방법에 미치지 못한다. 그러나 드노보 시퀀싱은 서열 데이터베이스에 존재하지 않는 신규 펩타이드를 찾을 수 있다는 장점을 갖고 있어서, 아직 알려지지 않았지만, 생물학적으로 중요한 기능을 가진 펩타이드를 발견하는데 필수적인 방법이다. 본 연구에서는 드노보 시퀀싱의 성능을 향상시킬 수 있고, 다양한 드노보 시퀀싱 도구에 적용할 수 있는 기계학습 기반의 후처리 도구인 NovoRank를 제안한다. NovoRank는 밀도기반 군집화 알고리즘으로 잘 알려진 DBSCAN 알고리즘을 사용하고, 더 나은 재순위 결과를 제공하기 위해 심층학습 기술을 적용한다. 대규모 합성 펩타이드 데이터 집합인 ProteomeTools에 대해서 NovoRank는 세 종류의 드노보 시퀀싱 결과의 펩타이드 재현율을 8.63~12.66 % 증가시킴을 보였다.|To identify peptides in mass spectrometry-based proteomics, tandem mass (MS/MS) spectra are analyzed using database search or de novo sequencing tools. In contrast to database search approaches, de novo sequencing directly deduces peptide sequences from MS/MS spectra without any reference to sequence databases. De novo sequencing method often generates incorrect peptide identifications due to its practically unlimited search space and its peptide identification performance does not reach that of database search methods. Instead, de novo sequencing has the advantage of finding novel peptides that are not a part of the sequence database, thus is an essential method for discovering peptides of as yet unknown, biologically important functions. Here, we propose a machine learning based post-processer for de novo sequencing tools, named NovoRank, that can improve the performance of de novo sequencing and is applicable with any de novo peptide sequencing tools. NovoRank uses DBSCAN, a well-known density-based clustering algorithm, and adopts deep learning techniques so that candidate peptide reordering can give a better top-ranked sequence. Given a large-scale synthetic peptide dataset (ProteomeTools), NovoRank increased the peptide recall by 8.63~12.66% when applied with de novo sequencing results from three different software tools.
URI
http://hanyang.dcollection.net/common/orgView/200000627268https://repository.hanyang.ac.kr/handle/20.500.11754/174145
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > ARTIFICIAL INTELLIGENCE(인공지능학과) > Theses(Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE