89 0

NovoCert: Statistical validation of de novo peptide sequencing results

Title
NovoCert: Statistical validation of de novo peptide sequencing results
Other Titles
드 노보 펩타이드 서열 결정에 있어서의 통계적 검증
Author
장선희
Alternative Author(s)
ZHANG SHANJI
Advisor(s)
Eunok Paek
Issue Date
2024. 2
Publisher
한양대학교 대학원
Degree
Master
Abstract
De novo peptide sequencing from tandem mass spectra can be useful to identify novel peptides. However, lack of statistical validation hinders its application in practice. We propose a method, called NovoCert, that utilizes both semi-supervised learning and statistical approach to validate the peptide spectrum matches (PSMs) inferred from de novo peptide sequencing. Our peptides of interest in the de novo peptide sequencing results are “novel” peptides in general, hence spectra that could be reliably identified through database search (e.g., Comet search against reference protein sequence database) were discarded at the beginning. Among the unidentified spectra, we obtained PSMs by identifying spectra using a de novo sequencing tool PEAKS and used them as a positive training data set. We divided the PSMs into “exact” and “additional”groups based on whether they had at least one exact match in the protein sequence database or not, respectively. After that, we generated negative training data sets for each of the exact and additional group by de novo sequencing “reverse-shifted and precursor-swap” and “reverse-shifted” spectra, respectively. To precisely discriminate between positive and negative training data sets, we used 14 proteomic features including spectral similarity and delta retention time. Using Percolator, we estimated each group at 1% false discovery rate (FDR). For the identified PSMs in the additional group, we further validated their quality by calculating empirical p-value of the spectral similarity. To evaluate NovoCert, we used the ProteomeTools synthetic peptide dataset (PXD004732). As a result, in the exact group, NovoCert identified 7,690 peptides that were not found in the database search. In the additional group, we identified 144,706 PSMs (62,267 peptides) at FDR 1% and discarded 119,571 PSMs identified from MSFragger open search results at FDR 1%. Almost all 25,135 remaining PSMs (>99%) showed a significant p-value (<0.01), indicating that the identification was confident. These peptides in the additional group are assumed to have been rendered due to peptide synthesis errors resulting in chemical modifications and/or altered sequences.|탠덤 질량 스펙트럼을 활용한 드 노보 펩타이드 시퀀싱 분석은 새로운 펩타이드를 식별하는 데 유용하다. 그러나 통계적 검증이 부족하여 실제 적용에 어려움을 겪고 있다. 본 연구에서는 반지도 학습과 통계적 접근 방식을 결합한 NovoCert를 제안하여 드 노보 펩타이드 시퀀싱에서 유추된 PSM (Peptide-Spectrum Match)을 검증하고자 한다. 응용에 따라 펩타이드 시퀀싱 결과에서 주목받는 펩타이드는 "새로운" 펩타이드이기 때문에 데이터베이스 검색 (예: 참조 단백질 서열 데이터베이스에 대한 Comet 검색)을 통해 안정적으로 식별할 수 있는 스펙트럼은 제외했다. 이후, 식별되지 않은 스펙트럼 중에서 드 노보 시퀀싱 도구인 PEAKS를 사용하여 얻은 PSM을 양성 훈련 데이터 세트로 활용했다. 단백질 서열 데이터베이스에 하나 이상의 정확한 일치 여부에 따라 "정확한 그룹"과 "추가 그룹"으로 분류했다. 이후, "역방향 이동 및 전구체 교환" 스펙트럼과 "역방향 이동" 스펙트럼을 각각 드 노보 시퀀싱하여 정확한 그룹과 추가 그룹 각각에 대한 음성 훈련 데이터 세트를 생성했다. 양성 및 음성 훈련 데이터 세트를 정확하게 구별하기 위해 14가지 단백질 features, 스펙트럼 유사성 및 유지 시간 차이 값을 활용했다. 각 그룹에 대해 Percolator를 적용하여 1% FDR을 추정했고, 추가 그룹에서 식별된 PSM의 경우 임의로 생성된 순열의 예측 스펙트럼과 유사성을 기반으로 p-value을 계산하여 품질을 추가로 검증했다. NovoCert를 평가하기 위해 ProteomeTools의 합성 펩타이드 데이터 세트 (PXD004732)를 활용했는데, 결과적으로 NovoCert는 정확한 그룹에서 데이터베이스 검색에서 발견되지 않았던 7,690개의 펩타이드를 추가적으로 식별했고, 추가 그룹에서는 FDR 1%에서 144,706개의 PSM (62,267개 펩타이드)을 식별하였으며, FDR 1%에서 MSFragger 공개 검색 결과에서 식별된 119,571개의 PSM을 제외했을 때, 25,135개의 PSM중 거의 모든 PSM (>99%)이 유의미한 p-value (<0.01)를 보였다. 추가 그룹에서의 이러한 펩타이드는 화학적 변형 및/또는 변경된 서열을 초래하는 펩타이드 합성 오류로 인해 생성된 것으로 판단된다.
URI
http://hanyang.dcollection.net/common/orgView/200000721301https://repository.hanyang.ac.kr/handle/20.500.11754/188398
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE(컴퓨터·소프트웨어학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE