342 0

Full metadata record

DC FieldValueLanguage
dc.contributor.advisor조인휘-
dc.contributor.author이주희-
dc.date.accessioned2022-02-22T02:14:23Z-
dc.date.available2022-02-22T02:14:23Z-
dc.date.issued2022. 2-
dc.identifier.urihttp://hanyang.dcollection.net/common/orgView/200000595717en_US
dc.identifier.urihttps://repository.hanyang.ac.kr/handle/20.500.11754/168374-
dc.description.abstractThe needs of utilizing big data in the business enterprise is increasing. Due to this reason, many businesses construct data warehouse and data mart to manage and facilitate refined data. The data mart is required to create separated views for each subject. The subjects are often determined by the departments in the enterprise. So, the views for each subject are designed for the business requirements. To fulfill these requirements, successive data processing jobs run to populate refined data. These jobs called batch jobs. In the past, the requirements were relatively simple. In contrast, nowadays, as the industrial society is getting complicated, the requirements reflecting business process is getting complex as well. Nonetheless this leads to the increase of complexity of logic and the time required for processing data, the enterprise cannot just add system resources to the system environment because the addition is an expense. Therefore, this paper suggests a dynamic scheduling model for big data mart batch jobs to improve the performance. In general, the order of batch jobs execution considers only precedence relationship as it used to be. Thus, this study proposes a model to find efficient order of the batch jobs which can improve the execution performance by using less system resources. To achieve this goal, this paper simulates the execution of successive batch jobs several times in different sequences. The order of the batch jobs is determined by additional variables. The variables used on this paper are the time elapsed and the number of data processed in the past. The batch jobs information for the simulation needs to be collected from the execution history in the past. When enough simulation records is made, the model analyze the records based on regression. Through the least square method of regression, the model can generate the prediction line for each case of ordering, and it can deduce the estimated execution time for future execution. Following to this, the model can compare and suggest the best ordering option for execution. Then, the user can schedule the newly ordered batch jobs for the future execution. |많은 기업들에서 꾸준히 사업을 위한 빅데이터를 활용에 대한 요구도가 증가하고 있다. 이러한 이유로 많은 기업들은 데이터 웨어하우스와 데이터 마트를 구축하여 정제된 데이터를 관리하고 활용하려고 한다. 데이터 마트는 주제별로 구분된 데이터 뷰를 제공하는 서비스이다. 데이터 마트의 주제는 주로 기업내 부서의 업무에 따라 결정되며 주제를 구성하는 데이터 뷰의 형태에 대한 요구사항은 비지니스적인 요소들을 반영한다. 이러한 요구 사항들을 반영하여 데이터 뷰를 만들기 위해서는 연속적인 데이터 처리 작업이 수행되어야 하며, 이러한 작업을 배치 작업이라고 부른다. 과거에는 이러한 요구사항들이 상대적으로 단순 하였으나, 최근 비지니스 환경의 복잡도가 증가하면서 요구사항의 복잡도 또한 증가되었다. 이런 복잡한 요구사항을 반영하기 위하여 배치 작업들의 복잡도 또한 증가하였고, 이는 데이터를 처리하는데 더 많은 시간을 필요로 하게 만들었다. 기업은 이때 마다 단순히 시스템 리소스를 추가하면 처리 속도를 개선 할 수 있는 것은 인지하지만, 비용 투자에 대한 문제로 쉽게 진행할 수만은 없다. 따라서 이번 연구는 배치 작업들을 동적 스케쥴링하여 마트 배치 작업 수행 성능을 향상 시키는 모델을 제안하고자 한다. 일반적으로 배치 작업의 수행 순서는 선 후행 관계만 고려하여 정해진다. 따라서 이 연구에서는 추가 변수를 활용해 배치 작업의 순서를 정하여 시뮬레이션을 수행해본 후, 수행 결과를 회귀 분석하여 배치 수행 예측 통계 모델을 생성하여 이를 기반해 더 나은 수행 성능을 보이는 작업의 순서를 채택하여 실제 배치 작업을 수행할 때 사용하도록 제안하는 모델을 소개하고자 한다. 이를 위해, 먼저 과거 연속된 배치 작업들이 수행되었던 수행 이력 정보를 기반으로 만들어낸 테스트용 샘플 배치 작업들로 우선 선 후행 관계를 고려한 배치 수행 순서와 추가 변수를 활용한 수행 순서들을 정한다. 순서들이 정해지고 나면, 각 순서에 대한 시뮬레이션을 수행하여 회귀 분석을 위한 충분한 레코드를 생성한다. 생성된 레코드는 최소제곱법을 이용하여 통계 모델로 만들어, 배치 작업 수 대비 수행 시간에 대한 회귀 수식을 구한다. 도출된 회귀 수식을 통해 수행될 배치 작업 개수에 따른 총 수행 시간을 예측할 수 있고, 수행 순서 마다 예측 된 수행 시간 비교를 통해 성능이 더 좋은 수행 순서를 추천할 수 있다. 사용자는 추천된 순서를 다음 배치 수행에 참조하여 스케쥴링할 수 있다.-
dc.publisher한양대학교-
dc.titleDesign of Dynamic Scheduling Model for Big Data Mart Batch Jobs based on Regression-
dc.typeTheses-
dc.contributor.googleauthorJuhee Lee-
dc.contributor.alternativeauthor이주희-
dc.sector.campusS-
dc.sector.daehak공학대학원-
dc.sector.department전기ㆍ전자ㆍ컴퓨터공학과-
dc.description.degreeMaster-


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE