111 0

효율적인 다중 서열 정렬 검색을 위한 단백질 임베딩 성능 향상

Title
효율적인 다중 서열 정렬 검색을 위한 단백질 임베딩 성능 향상
Other Titles
Enhancing Protein Embedding Performance for Efficient Multiple Sequence Alignment Search
Author
심정용
Alternative Author(s)
Shim Jeongyong
Advisor(s)
김은솔
Issue Date
2024. 2
Publisher
한양대학교 대학원
Degree
Master
Abstract
Proteins, composed of linear complexes of amino acids, typically exhibit complex, uniquely folded three-dimensional structures. In the mid-20th century, Anfinsen demonstrated that the sequence of amino acids in a protein encodes information about its structure and function by artificially unfolding a protein and then allowing it to refold back to its original state. Subsequently, many researchers began exploring the hidden information within protein sequences. Recently, with advancements in artificial intelligence and natural language processing, attempts have been made to extract information from sequences using language models. Among these attempts, one approach focuses on gathering information from individual tokens (amino acids or their combinations) within a protein sequence, while another represents the entire protein sequence as a single vector. Especially through protein representation, it is possible to extract various forms of information, such as sequence similarities among proteins and the functions of individual proteins. Existing research on protein sequence embedding, such as Evolutionary Scale Language Modeling (ESM), has primarily focused on training models like Standard BERT to train Masked Language Models with tokens consisting of amino acids. Although this approach has shown some effectiveness, it still faces challenges in capturing the unique characteristics of proteins and handling complex function prediction. One weakness of this approach is its failure to consider Multiple Sequence Alignment (MSA). In protein research, MSA plays a crucial role as a powerful tool for analyzing biological data. By aligning protein sequences, MSA allows the identification of conserved and variable regions, providing insights into co-evolutionary information and essential inter-residue interactions. Moreover, aligning homologous protein sequences through MSA captures crucial information about various aspects of protein functionality, such as motifs and domains, revealing vital details about protein structure and function. In this paper, we propose a new approach that integrates this MSA into protein embedding, enabling a more precise representation of the structural and functional details of proteins. To incorporate MSA information into protein embedding, we adopted contrastive learning as our methodology. Contrastive learning, a form of representation learning, aims to cluster positive samples closer together while pushing negative samples further apart in the embedding space. This method can be effectively trained even with unlabeled data, providing the advantage of deriving more general feature representations. By adopting this approach, we defined highly similar sequences with high alignment scores as positive samples and unrelated sequences as negative samples, thereby conducting contrastive learning. The experimental results show that our method overcomes the limitations of previous methods, which did not adequately consider MSA in protein embedding and confined the embeddings to a limited space. Furthermore, by demonstrating improved performance in various comparative experiments and follow-up tasks, we proved that protein embedding incorporating MSA information possesses superior representational power. This enhanced embedding shows potential for better predictions of protein function and structure|단백질은 아미노산의 선형 복합체로 이루어진 화학적 구조를 띠고 있으며, 대부분 복잡하게 접힌 고유한 3차원 형태를 나타낸다. 20세기 중반, 안핀센은 단백질의 접힌 구조를 인위적으로 해체한 후, 이를 원래의 접힌 상태로 복원시키는 실험을 통해 단백질 서열에 단백질의 구조와 기능에 대한 정보가 인코딩되어 있음을 입증하였다. 이후, 많은 연구자는 단백질 서열 내 숨겨진 정보를 탐색하기 시작했다. 최근 인공지능과 자연어 처리 분야에서의 주목할 만한 발전으로, 언어 모델을 사용하여 서열로부터 정보를 추출하려는 시도가 이루어지고 있다. 이러한 시도 중에는 단백질 서열 내의 개별 토큰(아미노산 또는 그 조합)에서 정보를 수집하는 접근법과 전체 단백질 서열을 하나의 벡터로 표현하는 접근법이 있다. 특히 단백질 표현 또는 단백질 임베딩을 통해, 단백질 간의 서열 유사성과 단백질의 기능 같은 다양한 형태의 정보를 추출할 수 있다. 이러한 배경에서, 다중 서열 정렬(Multiple Sequence Alignment, MSA)의 중요성과 이를 위한 서열 검색 알고리즘의 필요성이 강조된다. 다중 서열 정렬은 공진화 정보 및 잔기(residue) 사이의 상호작용에 대한 통찰력을 제공하며, 동종(homologous) 단백질 서열의 정렬을 통해, 모티프(motif) 및 도메인(domain)과 같은 단백질 기능성의 다양한 측면에 대한 중요한 정보를 포착할 수 있게 한다. 진화적 규모 언어 모델링(Evolutionary Scale Language Modeling, ESM)과 같은 기존의 단백질 서열 임베딩 연구는 주로 표준 BERT와 같은 언어 모델을 이용해 아미노산 토큰으로 구성된 마스크 언어 모델(Masked Language Model)을 훈련하는 데 집중하였다. 이러한 접근법은 단백질 서열 내의 아미노산을 토큰처럼 취급하여 서열의 상호작용과 구조적 패턴을 문맥적인 정보로 간주하여 학습하게 된다. 또한, AlphaFold2와 같이 Transformer 기반의 아키텍쳐를 활용한 연구는 단백질의 구조적, 기능적 특성과 상호작용을 보다 정확하게 예측하고 이해하는 데 크게 기여하였다. 이러한 최근의 다양한 언어 모델 및 딥러닝 기법을 활용한 연구에서 이러한 다중 서열 정렬 정보는 단백질의 구조적 및 기능적 특성과 진화적 관계를 더욱 정밀하게 파악하기 위해 필수적으로 사용되며, 그에 따라 더 다양하고 정밀한 다중 서열 정렬을 검색하기 위한 서열 검색 알고리즘의 필요성이 강조되고 있다. 그러나 이러한 서열 검색 알고리즘은 대규모 단백질 데이터베이스에서 서열 검색과 정렬을 수행하며, 다양한 진화 정보가 담긴 프로파일 또는 HMM-프로파일(Hidden Markov Model-profile)과 같은 추가적인 정보가 요구되므로 상당한 계산 자원과 시간이 요구된다. 본 논문에서는 이러한 다중 서열 정렬 정보를 단백질 임베딩에 통합하여, 단백질의 구조적 특성과 기능적 세부 사항을 더욱 정밀하게 표현할 수 있는 새로운 접근법을 제안한다. 이 접근법은 복잡하고 시간 소모적인 전통적 서열 검색 알고리즘을, 효율적이고 단순화된 단백질 임베딩 기반의 비교 방식으로 대체할 수 있는 가능성을 열어준다. 이를 통해, 단백질 서열의 검색, 분석, 비교가 기존 방식보다 더욱 간편하고 효율적으로 이루어질 수 있게 된다. 단백질 임베딩에 다중 서열 정렬 정보를 반영하기 위해, 우리는 대조 학습을 방법론으로 채택했다. 대조 학습은 임베딩 공간 내에서 긍정적인 샘플들을 서로 가깝게 모으고, 부정적인 샘플들을 멀리 분리하는 것을 목표로 하는 표현 학습의 한 방식이다. 이 방법은 라벨링 되지 않은 데이터에서도 효과적으로 학습될 수 있으며, 이를 통해 더 일반적인 특징 표현을 도출할 수 있는 이점이 있다. 이 접근법을 채택하여, 높은 정렬 점수를 가진 매우 유사한 서열을 긍정적인 샘플로, 관련 없는 서열을 부정적인 샘플로 정의함으로써 대조 학습을 수행했다. 실험 결과는 본 연구의 접근법이 단백질 임베딩에 다중 서열 정렬 정보를 더 효과적으로 반영하고, 기존 방식이 가진 임베딩의 제한된 범위 문제를 성공적으로 해결했음을 증명한다. 응용 연구를 통해 다양한 비교 실험에서 성능의 개선을 확인했으며, 이는 다중 서열 정렬 정보를 기반으로 한 단백질 임베딩이 뛰어난 표현 능력을 가지고 있음을 보여준다. 또한, 이렇게 대조 학습 방식을 통해 개선된 단백질 임베딩은 기존에 사용되던 복잡하고 많은 시간을 필요로 하는 서열 검색 알고리즘을 임베딩 비교 기반의 검색 알고리즘으로 대체함으로써 효과적인 대안이 될 수 있음을 보여준다.
URI
http://hanyang.dcollection.net/common/orgView/200000721694https://repository.hanyang.ac.kr/handle/20.500.11754/189297
Appears in Collections:
ETC[S] > ETC
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE