86 0

Representation Learning Applied to Taxonomy and Function Classification in Computational Molecular Biology

Title
Representation Learning Applied to Taxonomy and Function Classification in Computational Molecular Biology
Other Titles
종 분류 및 기능 분류를 위한 서열 표현 학습 모델
Author
곽호진
Alternative Author(s)
Ho-Jin Gwak
Advisor(s)
노미나
Issue Date
2024. 2
Publisher
한양대학교 대학원
Degree
Doctor
Abstract
종 분류 및 기능 분류를 위한 서열 표현 학습 모델 인간의 건강과 생태계에서, 미생물들은 서로 상호작용하거나 숙주와 상호작용함으로써 중요한 역할을 수행하고 있다. 이러한 미생물들은 대개 복잡한 군집을 형성하기 때문에, 인간을 포함한 환경 샘플에서 그들의 유전체 서열을 직접 읽어내는 메타게노믹스 분석 방법이 널리 사용된다. 유전체 서열을 분석하는 방법으로 구축된 데이터베이스에 서열을 검색하는 방식이 널리 사용되어 왔다. 그러나 구축된 데이터베이스가 전체 미생물의 극히 일부만을 반영하고 있기 때문에, 서열 상동성 기반 분석방법은 서열 데이터를 분석하는데 명확한 한계를 제시한다. 따라서 이러한 한계를 극복하기 위해 연구자들은 게놈 서열의 기본 패턴을 추출하여 예측 모델을 구축하려는 많은 노력을 기울여 왔으며, 이를 표현 학습이라고 한다. 표현 학습 분야에서, 자기 지도적 학습 방법은 최근 큰 발전을 이루었다. 이러한 방법은 유전체 서열을 구성하는 구성물 사이의 문맥을 학습함으로써 숨겨진 패턴을 성공적으로 추출하였고, 이는 유전체 서열을 이해하는데 큰 기여를 했다. 이러한 방법들은 서열 내의 구성물 사이의 맥락은 성공적으로 학습했지만, 각각의 서열을 표현 벡터로 표현하는 표현 능력에는 한계를 가지고 있다. 이 논문에서, 우리는 다음과 같은 두 가지 문제를 다룬다: (i) 시퀀싱 데이터의 유전적 정보가 충분히 반영되고 있지 않음, (ii) 서열을 구성하는 구성물이 분류 문제에 대해 서로 다른 기여도를 가짐. 먼저, 우리는 시퀀싱 데이터의 유전적 정보가 서열 표현에 충분히 반영되고 있지 않은 문제를 다룬다. 차세대 시퀀싱 데이터는 주로 짧은 서열의 쌍으로 구성되어 있다 (이하 페어드 엔드 리드). 이 페어드 엔드 리드는 기존에 존재하는 모델들에서 각각 독립적으로 다루어진다. 그러나 이 두 리드는 임의적인 쌍이 아니라 유전체 내에서 특정한 거리를 두고 떨어져 있는 서열들이다, 즉 두 리드 사이에 특정한 맥락을 가지고 있고 그 맥락을 학습함으로써 서열 표현을 개선할 수 있다. 이 논문에서, 우리는 두 리드를 하나의 표현에 삽입할 수 있는 임베딩 방법을 제시한다. 실험적으로, 이러한 표현 벡터를 사용하여 분류 모델을 훈련시켰을 때 기존의 모델들보다 더 좋은 성능을 달성했다. 두 번째 문제로, 서열을 구성하는 구성물이 분류 문제에 대해 서로 다른 기여도를 가지는 문제가 있다. 예를 들어, 높은 상동성을 보이는 서열에 대해, 서열 내의 특정 변이가 분류적 신호를 전달할 수 있다. 반면에, 낮은 상동성을 보이는 서열에 대해, 보존된 구성물 또는 구조가 분류 문제에 단서를 제공할 수 있다. 그러므로, 이러한 분류적 신호를 전달하는 구성물들이 서열 표현에 더 많이 기여하는 것이 효과적이다. 그러나, 기존의 모델들에서는 모든 구성물들의 평균이 서열 표현으로 사용되고 있다. 이 논문에서, 우리는 구성물들 사이의 분류적 신호를 포착하는 집계 방법을 최적화했으며, 높은 상동성과 낮은 상동성을 보이는 서열들 모두에 대해 적절한 특징을 학습하였다. 제안된 방법들은 구성물 수준의 이해와 전체 서열의 포괄적인 표현 사이의 격차를 줄여 유전체 데이터의 표현 학습의 효율성을 높이는 것을 목표로 한다.|Representation Learning Applied to Taxonomy and Function Classification in Computational Molecular Biology Ho-Jin Gwak Department of Computer Science The Graduate School Hanynag University In human health and the ecosystem, microorganisms play an important role by interacting with their hosts or with each other. Since these micro-organisms typically form complex mixtures, analytical techniques (called metagenomics) are widely used, which extract genomic sequences directly from environmental samples encompassing humans. To analyze these genomic sequences, sequence homology searches have been conducted against established databases. However, limitations arise as established databases cover only a small fraction of microorganisms, limiting our ability to analyze sequencing data using homology-based methods. Therefore, to overcome these limitations, researchers have made many efforts to build predictive models by extracting underlying patterns of genomic sequences, which is called representation learning. In the representation learning, self-supervised learning approaches have recently made remarkable progress. These approaches successfully extract underlying patterns by learning the context between components (called residues) of the genomic sequences, contributing to a profound under-standing of genomic sequences. While these methods effectively capture residue-level context within a sequence, they are limited in their ability to process the representation of each sequence as an embedding vector. In this these, we address two problems: (i) the genetic information in seq-uencing data is not fully considered and (ii) the residues constituting the sequence contribute differently to the classification problem. First, we address the problem that genetic information in sequencing data is not fully considered in the existing methods. High-throughput sequencing data usually consists of short paired sequences called paired-end reads. These paired reads are processed independently in the existing methods. However, the distance of two paired reads is not random but around a certain distance in the source genome, thus sequence-level repre-sentations can be improved by learning the context of residues between reads when embedding two reads together. In this thesis, we present an embedding method that embeds paired reads into a single embedding layer. Empirically, leveraging these embeddings to train a classification model improved classification performance compared to the existing methods. Then we address the second problem that the residues constituting the sequence contribute differently to the classification problem. For instance, among highly homologous sequences, certain variant residues contribute to classification decisions. On the other hand, for remotely homologous sequences, conserved residues serve as identification clues. Therefore, it is efficient that residues that provide these discriminative signals would contribute more to the sequence-level representation. However, in the existing methods, the sequence-level representation was expressed using the average of the residues constituting that sequence. In this thesis, we optimized aggregation methods to adeptly capture dis-criminative signals among residues, thereby successfully learning locally and globally associated features from both highly and remotely homologous sequence data. These proposed methods aim to increase the efficiency of representation learning for genomic data by reducing the gap between residue-level understanding and the comprehensive representation of entire sequences.
URI
http://hanyang.dcollection.net/common/orgView/200000721737https://repository.hanyang.ac.kr/handle/20.500.11754/188371
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE(컴퓨터·소프트웨어학과) > Theses (Ph.D.)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE