노이즈 유도를 이용한 GAN 기반 시계열 결측치 보간의 학습속도 개선
- Title
- 노이즈 유도를 이용한 GAN 기반 시계열 결측치 보간의 학습속도 개선
- Other Titles
- Improving Learning Speed of GAN-based Time Series Imputation Using Noise Induction
- Author
- 강상엽
- Alternative Author(s)
- Kang SangYeob
- Advisor(s)
- 허선
- Issue Date
- 2024. 2
- Publisher
- 한양대학교 대학원
- Degree
- Master
- Abstract
- 결측치란 특정 값 또는 변수의 일부가 누락되어 있는 것을 말하며 이러한 결측치를
포함한 데이터를 불완전 데이터 혹은 결측 데이터라고 부른다. 결측치 혹은 결측 데이
터는 많은 기계학습 알고리즘에서 치명적으로 작용한다. 결측치를 처리하기 위해 다양
한 결측치 처리 방법이 제안되어 있는데, 결측치 혹은 결측치를 포함한 열 또는 행을
삭제하거나, 변수의 통계적 특성을 고려한 다양한 방법을 통해 결측치를 보간하기도
한다.
본 연구에서는 결측치를 보간하는 많은 방법들 중 딥러닝 방법론 중 하나인 생성
적 적대 신경망을 활용한 결측치 보간 방법인 GAIN 알고리즘의 학습속도를 개선시키
고자 한다. 그 방법으로 GAIN 알고리즘의 입력 값으로 사용되는 완전히 임의의 난수,
즉 노이즈를 유도하여 학습속도의 개선을 기대한다. 데이터 셋을 분할하여 각 분할된
데이터 셋 별로 데이터를 생성하여 해당 데이터를 GAIN 알고리즘의 입력 값으로 사
용한다. 이는 GAIN 알고리즘의 학습의 방향을 설정하여 학습속도 개선을 기대할 수
있다.
제안한 방법의 효율성을 평가하기 위한 실험은 결측치의 비율을 1%, 2%, 5%로
설정하여 임의적으로 기존 데이터에서 누락시켰고, 결측치를 보간할 때 소요한 시간을
측정하여 기존 GAIN알고리즘과 비교하였다. 기존의 GAIN 알고리즘과 노이즈를 유도
한 GAIN 알고리즘의 최고 성능까지 학습 반복횟수는 평균적으로 약 35% 개선되었으
며, 최고 성능까지 학습시간은 평균적으로 약 30% 개선되었다.|Missing values refer to the absence of specific values or variables in a dataset,
and data containing such missing values is often referred to as incomplete or
missing data. Missing values can have a detrimental impact on many machine
learning algorithms. Various methods have been proposed to handle missing
values, including deleting rows or columns with missing values, or using different
techniques that take into account the statistical properties of variables for
imputation.
In this study, we aim to improve the learning speed of the GAIN algorithm, a
missing data imputation method based on generative adversarial networks (GANs),
among many imputation methods using deep learning methodologies. We propose
to enhance the learning speed by inducing noise, specifically completely random
noise, as input values for the GAIN algorithm. We divide the dataset and generate
data for each segmented dataset, utilizing this data as input for the GAIN algorithm.
This is expected to set the direction of learning for the GAIN algorithm, leading to
improved learning speed.
To evaluate the efficiency of the proposed method, experiments were conducted by
randomly introducing missing values at rates of 1%, 2%, and 5% in the original
dataset. The time required for imputing missing values was measured and
compared between the conventional GAIN algorithm and the GAIN algorithm
induced with noise. The number of learning iterations until reaching the optimal
performance for both the original GAIN algorithm and the noise-induced GAIN
algorithm showed an average improvement of approximately 35%, while the time
required to reach optimal performance improved by an average of approximately
30%
- URI
- http://hanyang.dcollection.net/common/orgView/200000720721https://repository.hanyang.ac.kr/handle/20.500.11754/189150
- Appears in Collections:
- GRADUATE SCHOOL[S](대학원) > INDUSTRIAL MANAGEMENT ENGINEERING(산업경영공학과) > Theses (Master)
- Files in This Item:
There are no files associated with this item.
- Export
- RIS (EndNote)
- XLS (Excel)
- XML