585 0

IT 인프라 운영분야에서 LSTM 기반의 장애예측 모델

Title
IT 인프라 운영분야에서 LSTM 기반의 장애예측 모델
Other Titles
LSTM-based failure prediction model in IT Infrastructure management
Author
김효진
Alternative Author(s)
Kim, Hyo Jin
Advisor(s)
조인휘
Issue Date
2020-08
Publisher
한양대학교
Degree
Master
Abstract
많은 IT 서비스들은 컴퓨터 시스템을 이용하여 서비스를 제공하면서 시스템의 신뢰성과 가용성은 매우 중요한 문제로 대두되었다. 발전하는 IT 서비스만큼 관리해야 할 시스템도 점점 증가되었고 이로 인해 서비스를 제공하는 해당 시스템의 장애가 엄청난 피해로 이어지게 되었다. 많은 기업들은 시스템의 안정성과 가용성을 높이는 것에 많은 비용을 쏟고 있다. 때문에 이러한 시스템 운영과 관제의 인적비용, 시스템 장애에서 이어진 서비스 장애로 인한 피해 비용 등을 최소화하기 위한 방안이 필요하였다. 따라서 머신러닝 기반의 시스템로그 및 장애로그 분석을 이용한 장애예측 모델에 관한 기술이 발전되기 시작하였고 최근에도 지속적인 연구를 통해 예측의 정확도를 높이고 있다. 본 논문에서는 장애 예측을 위해 기존의 시스템로그나 장애로그 등을 분석하여 장애를 예측하는 연구방식과는 달리 시스템 자원사용량을 메트릭 형태의 수치로 수집하여 장애 발생 시, 시스템 리소스 수치의 패턴을 분석하고 수치 예측을 통한 장애를 예측하여 장애발생 요소를 사전에 선 조치함으로써 시스템의 신뢰성과 가용성을 향상시킬 수 있게 하였다. 성능을 측정 결과 예측모델 분석 시 참조되는 변수를 늘리기보다는 데이터샘플의 양을 늘리는 것이 예측 정확성 측도 시 RMSE기준 38.04%, MSE기준27.4%, MAE기준 30.1%로 더 나은 결과를 보여주었고 예측 오차율은 MAPE기준 4.797319, MASE기준 5.528429로 높은 예측율을 보여주었다.; The reliability and availability of systems have emerged as important issues as many IT services provide their services using computer systems. As IT services further develop, we have more systems to be managed. The errors of the system that provides the service often lead to massive damage, and many companies spend large amounts of money on increasing the reliability and availability of the system. In these circumstances, solutions have become in demand that would minimize costs of system management, human labor, and damage caused by the service failure following a system failure. In this regard, technologies of the failure prediction model through machine learning-based system and failure log analysis have started to develop, and recently with continuous efforts, the accuracy of prediction has been improved. This paper, unlike other researches predicting the failure by analyzing the system or failure log for the prediction of failure, explores a new system model that collects the amounts of system resource usage rate in a metric form when a failure occurs. In this way, the system increases the reliability and availability of the system by pre-measuring failure factors by analyzing the pattern of system resource figures and predicting failures through numerical prediction. As a result of measuring its performance, increasing the number of data samples rather than increasing the referenced variables showed better results for prediction accuracy by 38.04% (RMSE), 27.4% (MSE), and 30.1% (MAE), and predicted failure rate by 4.797319 (MAPE), 5.528429 (MASE).
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/153284http://hanyang.dcollection.net/common/orgView/200000438188
Appears in Collections:
GRADUATE SCHOOL OF ENGINEERING[S](공학대학원) > ELECTRICAL ENGINEERING AND COMPUTER SCIENCE(전기ㆍ전자ㆍ컴퓨터공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE