925 0

짧은 리드의 한국인 전장유전체 데이터로부터 긴 길이의 결실과 연관된 비맵핑구간 분석

Title
짧은 리드의 한국인 전장유전체 데이터로부터 긴 길이의 결실과 연관된 비맵핑구간 분석
Author
이유나
Advisor(s)
고인송
Issue Date
2019-02
Publisher
한양대학교
Degree
Master
Abstract
초기 차세대 염기서열(NGS) 데이터는 짧은 리드(read) 데이터로 생산된 것이 대부분이다. 삽입-결실(indel) 이나 단일염기 다형성(SNP)을 찾아 분석하는 연구는 활발히 진행됐지만, 긴 길이의 결실/삽입에 대한 연구는 대부분의 생산 데이터인 Illumina 플랫폼 데이터로는 리드 길이가 짧기 때문에 찾는 것부터가 어렵다. 최근 PacBio 플랫폼이나 Nanopore 플랫폼의 긴 리드 데이터가 생산되면서 긴 길이의 결실/삽입을 찾는 것이 짧은 리드를 이용할 때보다 쉬워졌지만 데이터 생산 비용이 비싸다는 단점이 있다. 본 연구에서는 상대적으로 구하기 쉬운 Illumina 플랫폼의 전장유전체의 짧은 리드 데이터를 통해, 긴 길이의 결실의 가능성이 있는 부위인 비맵핑구간(UMR)을 검출하는 프로그램을 구축하고자 한다. 질병관리본부 국립보건연구원(Korea National Institute of Health)로부터 분양받은 정상 한국인 20명의 전장유전체서열 데이터와 한국인 게놈프로젝트(Korean Personal Genome Project)에서 제작된 정상 한국인 20명의 전장유전체서열 데이터를 이용하여 분석을 진행하였다. 40명의 데이터를 GRCh37 참조유전체(reference genome)에 맵핑한 후, 염색체 별로 분할하여 작업을 진행하였다. 각 염색체별 BAM 형식의 파일에서 맵핑 시작점과 맵핑 정보를 추출하여 그 간격을 확인하는 방법으로 UMR을 검출하는 프로그램을 구성하였다. 또한 샘플 데이터의 개인별 UMR들을 비교분석하여 40명의 CUMR (common UMR)을 분석하였다. 총 40명의 전장유전체서열 데이터에서 개인별로 평균 약 36,000개의 UMR을 찾아낼 수 있었다. 그 다음 주석과정(annotation)을 거쳐 개인별로 약 3,000개의 결실이 가능한 UMR을 찾을 수 있었다. 그리고 40명 모두 공통적으로 갖는 CUMR은 284개로 개인별 평균 UMR 개수의 0.8%의 비율로 나타났다. 무작위로 선택한 20명의 데이터의 CUMR의 비율을 구해보았을 땐, 1.4%정도의 비율로 나타났다. 1000게놈프로젝트에서 제공하는 절단점(break point)을 기준으로 40명의 전장유전체서열 데이터의 UUMR (union of UMR)과 비교하여 겹치는 구간의 개수를 찾아보니 30,698개의 구간이 나왔다. 비교하는 샘플의 개수를 늘려갈수록 합집합의 개수가 증가하는 것으로 보아, 비교 대상 수를 1000게놈프로젝트와 비슷한 수준으로 늘려보면 1000게놈프로젝트에서 제공하는 절단점의 수(74,045개)에 근사하게 추정할 수 있을 것으로 예상된다.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/99930http://hanyang.dcollection.net/common/orgView/200000435338
Appears in Collections:
GRADUATE SCHOOL OF BIOMEDICAL SCIENCE AND ENGINEERING[S](의생명공학전문대학원) > BIOMEDICAL INFORMATICS(생명의료정보학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE