87 0

노이즈 유도를 이용한 GAN 기반 시계열 결측치 보간의 학습속도 개선

Title
노이즈 유도를 이용한 GAN 기반 시계열 결측치 보간의 학습속도 개선
Other Titles
Improving Learning Speed of GAN-based Time Series Imputation Using Noise Induction
Author
강상엽
Alternative Author(s)
Kang SangYeob
Advisor(s)
허선
Issue Date
2024. 2
Publisher
한양대학교 대학원
Degree
Master
Abstract
결측치란 특정 값 또는 변수의 일부가 누락되어 있는 것을 말하며 이러한 결측치를 포함한 데이터를 불완전 데이터 혹은 결측 데이터라고 부른다. 결측치 혹은 결측 데이 터는 많은 기계학습 알고리즘에서 치명적으로 작용한다. 결측치를 처리하기 위해 다양 한 결측치 처리 방법이 제안되어 있는데, 결측치 혹은 결측치를 포함한 열 또는 행을 삭제하거나, 변수의 통계적 특성을 고려한 다양한 방법을 통해 결측치를 보간하기도 한다. 본 연구에서는 결측치를 보간하는 많은 방법들 중 딥러닝 방법론 중 하나인 생성 적 적대 신경망을 활용한 결측치 보간 방법인 GAIN 알고리즘의 학습속도를 개선시키 고자 한다. 그 방법으로 GAIN 알고리즘의 입력 값으로 사용되는 완전히 임의의 난수, 즉 노이즈를 유도하여 학습속도의 개선을 기대한다. 데이터 셋을 분할하여 각 분할된 데이터 셋 별로 데이터를 생성하여 해당 데이터를 GAIN 알고리즘의 입력 값으로 사 용한다. 이는 GAIN 알고리즘의 학습의 방향을 설정하여 학습속도 개선을 기대할 수 있다. 제안한 방법의 효율성을 평가하기 위한 실험은 결측치의 비율을 1%, 2%, 5%로 설정하여 임의적으로 기존 데이터에서 누락시켰고, 결측치를 보간할 때 소요한 시간을 측정하여 기존 GAIN알고리즘과 비교하였다. 기존의 GAIN 알고리즘과 노이즈를 유도 한 GAIN 알고리즘의 최고 성능까지 학습 반복횟수는 평균적으로 약 35% 개선되었으 며, 최고 성능까지 학습시간은 평균적으로 약 30% 개선되었다.|Missing values refer to the absence of specific values or variables in a dataset, and data containing such missing values is often referred to as incomplete or missing data. Missing values can have a detrimental impact on many machine learning algorithms. Various methods have been proposed to handle missing values, including deleting rows or columns with missing values, or using different techniques that take into account the statistical properties of variables for imputation. In this study, we aim to improve the learning speed of the GAIN algorithm, a missing data imputation method based on generative adversarial networks (GANs), among many imputation methods using deep learning methodologies. We propose to enhance the learning speed by inducing noise, specifically completely random noise, as input values for the GAIN algorithm. We divide the dataset and generate data for each segmented dataset, utilizing this data as input for the GAIN algorithm. This is expected to set the direction of learning for the GAIN algorithm, leading to improved learning speed. To evaluate the efficiency of the proposed method, experiments were conducted by randomly introducing missing values at rates of 1%, 2%, and 5% in the original dataset. The time required for imputing missing values was measured and compared between the conventional GAIN algorithm and the GAIN algorithm induced with noise. The number of learning iterations until reaching the optimal performance for both the original GAIN algorithm and the noise-induced GAIN algorithm showed an average improvement of approximately 35%, while the time required to reach optimal performance improved by an average of approximately 30%
URI
http://hanyang.dcollection.net/common/orgView/200000720721https://repository.hanyang.ac.kr/handle/20.500.11754/189150
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > INDUSTRIAL MANAGEMENT ENGINEERING(산업경영공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE