317 0

DNA 시퀀스 벤치마크를 위한 워크로드 분석 도구

Title
DNA 시퀀스 벤치마크를 위한 워크로드 분석 도구
Other Titles
Workload Analysis Tool for DNA Sequence Benchmark
Author
임경열
Alternative Author(s)
Kyeongyeol Lim
Advisor(s)
원유집
Issue Date
2015-02
Publisher
한양대학교
Degree
Master
Abstract
The recent development of NGS (Next Generation Sequencing) methods has greatly increased the amount of genome data and created the need for high-performance computing and high-performance storage systems. The key issue in developing high-performance storage systems is building a storage system that is optimized for NGS analysis pipeline. In this paper, we implemented a tool to collect and analyze I/O workload in NGS analysis pipeline. Using this tool, we executed NGS analysis pipeline and analyzed the characteristics of I/Os collected in the experiment. In this paper, we implemented a tool to collect and analyze I/O workload in NGS analysis pipeline. This tool supports multi-client environment and is not restricted to one specific file system. it consists of iotrace module, a server, and WebGUI. iotrace module exists in each client as an agent to support multi-client environment. It is implemented on FUSE (Filesystem in Userspace). Traces of I/O requests from each client’s NGS analysis pipeline are collected by iotrace module at the file system level. They are transmitted to the analysis server through TCP/IP. The analysis server collects the I/O data received, then analyzes and saves the data in the database. The workload information is managed and monitored in the analysis server using WebGUI. Using this tool, we executed NGS analysis pipeline and analyzed the characteristics of I/Os collected in the experiment.|최근 NGS ( Next Generation Sequencing) 기법의 활성화로 인해 유전 체 데이터의 크기가 급격히 증가하고있다. 이와같은 대규모의 유전체 데이터를 분석 관리하기 위해 HPC (High-Performance Computing) 및 High-Performance Storage System이 필요 하게 되었다. 이러한 High-Performance Storage System 을 위해 유전체 분석 파이프라인에 최적화된 스토리지 시스템을 구성하는것은 매우 중요한 이슈가 되었다. 워크로드의 특성을 이해하고 이를 통한 스토리지 서브 시스템 환경을 구축함 으로써 자원 측면에서 비용을 줄일수 있다. 본 논문 에서는 FUSE를 활용한 워크로드 분석 도구를 구현했다. 워크로드 분석도구는 수집된 워크로드 데이터를 저장, 관리, 분석하기 위한 분석 서버, 워크로드의 I/O를 수집하고 수집된 데이터를 분석 서버에 전달하는 I/O Trace module, 분석 된 데이터를 관리 및 모니터를 할수 있는 웹 GUI 로 구성된다. 클라이언트에서 발생한 I/O정보를 파일시스템 수준에서 수집하여 워크로드 분석 서버에 TCP/IP 를 통해 전송한다. 워크로드 분석 서버는 전송된어진 I/O 데이터를 취합 하여 분석 하고 다양한 형태로 저장한다. 웹 GUI 는 IOPS, 대역폭, 파일 시스템으로 부터 발생한 시스템콜등의 정보를 실시간으로 시각화 한다. 다중 클라이언트 및 워크로드의구간별 비교 및 통계 정보를 통해 분산환경에서 워크로드의 특성을 정확히 파악할수 있도록하였다. 본 논문에서는 실제 NGS analysis pipeline의 I/O 워크로드에 대한 NFS 클라이어트의 I/O정보를 수집 하고 분석 하였다. 본 실험을 통해 스토리지 시스템에서 발생하는 I/O를 시각화 하고 이를 통해 동일 워크로드에 대해 클라이언트에서 I/O 구간별 다양한 특성을 보임을 확인하였다.; The recent development of NGS (Next Generation Sequencing) methods has greatly increased the amount of genome data and created the need for high-performance computing and high-performance storage systems. The key issue in developing high-performance storage systems is building a storage system that is optimized for NGS analysis pipeline. In this paper, we implemented a tool to collect and analyze I/O workload in NGS analysis pipeline. Using this tool, we executed NGS analysis pipeline and analyzed the characteristics of I/Os collected in the experiment. In this paper, we implemented a tool to collect and analyze I/O workload in NGS analysis pipeline. This tool supports multi-client environment and is not restricted to one specific file system. it consists of iotrace module, a server, and WebGUI. iotrace module exists in each client as an agent to support multi-client environment. It is implemented on FUSE (Filesystem in Userspace). Traces of I/O requests from each client’s NGS analysis pipeline are collected by iotrace module at the file system level. They are transmitted to the analysis server through TCP/IP. The analysis server collects the I/O data received, then analyzes and saves the data in the database. The workload information is managed and monitored in the analysis server using WebGUI. Using this tool, we executed NGS analysis pipeline and analyzed the characteristics of I/Os collected in the experiment.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/128651http://hanyang.dcollection.net/common/orgView/200000425730
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE(컴퓨터·소프트웨어학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE