77 0

Computational Methods for Discovery and Analyses of Novel Peptides in Proteogenomics

Computational Methods for Discovery and Analyses of Novel Peptides in Proteogenomics
Other Titles
Computational Methods for Discovery and Analyses of Novel Peptides in Proteogenomics
Alternative Author(s)
Seunghyuk Choi
Issue Date
2022. 8
With the advances in genomics and proteomics technologies such as next-generation sequencing and tandem mass spectrometry, we can better identify sample-specific and/or novel peptides. Many novel peptides have been steadily reported, and some studies have also suggested the importance of novel peptides with biological significance. Novel peptide discovery is not limited to global proteome, several studies also discovered the prevalence of novel peptides among the major histocompatibility complex-I (MHC-I) immunopeptidome. With increasing importance of novel peptides, many proteogenomics workflows have been developed to discover the novel peptides beyond the current knowledge of translation. To understand the world of novel peptides, it is necessary to consider a wide range of possibilities. In this work, we proposed innovative computational methods for discovery and analyses of novel peptides in proteogenomics that can help us expand our horizon in this endeavor. We introduce a series of tools — MutCombinator for identification of mutated peptides allowing combinatorial mutations, pXg for identification reliable novel peptides from de novo peptide sequencing coupled with RNA-Seq reads in MHC-I immunopeptidomics and ACTG for mapping peptides to genome, assuming potential novel peptides. MutCombinator is the first practical approach to identify mutated peptides allowing combinations of massive mutations from not only sample-specific but also public mutation resources. pXg identifies reliable PSMs from de novo peptide sequencing by making use of the matched RNA-Seq data sets in MHC-I immunopeptidomics and that in a comprehensive manner without any reference to potentially novel sequence databases. We show that pXg can identify interesting examples such as a loss of stop codon in the noncoding RNA and can supplement the current annotations in the IEDB. Given a novel peptide, which is not part of a coding gene, ACTG enables the peptide to be mapped onto the genome by suggesting potential structural variations such as exon skipping, splice junction variation, frame shift and intron retention, even when such novel transcript models are not given as an input. |최근 차세대 염기서열 분석과 탠덤 질량 분석 기술의 발전으로, 유전체와 단백체 데이터로부터 환자 개별적인 펩타이드와 더불어 신규 펩타이드 (참조 단백질 서열 데이터베이스에 존재하지 않는 펩타이드) 의 발굴이 가능해졌다. 따라서, 많은 신규 펩타이드가 지속적으로 동정되고 있고, 이 중에는 생물학적 기능이 밝혀진 사례도 보고되었다. 특히, 면역 펩티돔 연구에서는 탠덤 질량 분석을 바탕으로, MHC-I (major histocompatibility complex-I) 에 결합하는 다양한 신규 펩타이드가 존재한다는 것이 보고되고 있다. 이와 같이 신규 펩타이드 발굴이 중요해지면서, 다양한 유전단백체 기반의 동정 기법들이 개발되고 있다. 신규 펩타이드의 가능성은 무궁무진하기 때문에 이를 발굴하거나 기존의 유전체/전사체 모델과 비교해서 해석하는 것은 계산복잡도가 매우 높은 문제가 된다. 본 연구에서는 다양한 신규 펩타이드를 발굴하고 분석할 수 있는 유전단백체 계산 소프트웨어인 MutCombinator, pXg 그리고 ACTG의 알고리즘과 그 유용성을 제시하였다. MutCombinator는 다양한 돌연변이의 조합으로 발현되는 펩타이드를 동정할 수 있는 툴로, 환자에서 유래된 돌연변이는 물론, 기존에 알려진 돌연변이까지 대량의 돌연변이 조합을 고려해서 찾을 수 있다는 점에서 기존의 방법과 큰 차별성이 있으며 실질적인 유용성이 뛰어나다. pXg는 일반적으로 데이터베이스 서치를 통해 신규 펩타이드를 발굴해 오던 기존의 방법을 탈피하여, 드 노보 펩타이드 시퀀싱과 RNA-Seq 데이터를 기반으로 MHC-I 면역펩티돔 데이터에서 신규 펩타이드를 발굴하는 문제에 최적화한 툴이다. 드 노보 펩타이드 시퀀싱의 장점인 완전히 새로운 펩타이드의 (즉, 데이터베이스에 대한 단순 변형으로 볼 수 없는 펩타이드) 발굴이 가능하다는 점과 RNA-Seq에서 확인할 수 있는 모든 종류의 신규 펩타이드를 동정할 수 있는 장점은 pXg의 잠재력을 뒷받침한다. 마지막으로, ACTG는 exon skipping, splice junction variation, frame shift 그리고 intron retention과 같은 유전자 변이를 허용하여 펩타이드와 유전체를 대응시키는 툴이다. 또한, 추가적인 돌연변이 정보를 주어진다면, 돌연변이도 고려하여 펩타이드의 가능한 유전체 위치를 제시한다.
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE(컴퓨터·소프트웨어학과) > Theses (Ph.D.)
Files in This Item:
There are no files associated with this item.
RIS (EndNote)
XLS (Excel)


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.