321 0

혼합형 변수 데이터 세트의 결측 데이터 대체 비교 : 타이어 성능 예측에 관한 사례 연구

Title
혼합형 변수 데이터 세트의 결측 데이터 대체 비교 : 타이어 성능 예측에 관한 사례 연구
Other Titles
A Comparison of Missing Data Imputation for Mixed-Type Variables Datasets : A Case Study on Tire Performances Prediction
Author
임채홍
Alternative Author(s)
Chaehong Lim
Advisor(s)
이기천
Issue Date
2023. 2
Publisher
한양대학교
Degree
Master
Abstract
기계 학습(ML)을 활용한 연구는 최근10년간 빠르게 증가했다. 이는 컴퓨팅을 위한 하드웨어인 CPU, 메모리, 그래픽 카드 성능이 향상하고, 전세계 연구자들이 GitHub등의 온라인 네트워크를 통해 활발하게 교류했기 때문이다. 타이어 제조업계도 이러한 시대적 흐름을 따라 제품 개발 기간을 단축하고 제품 성능을 개선하기 위해 기계 학습 기반 타이어 성능 예측 연구에 착수했다. 연구를 위한 자료를 수집하였으나, 지난 10년간 자료관리체계, 시스템, 관리항목 등의 변화로 결측 데이터가 많았다. 또한 데이터 입력을 수행하는 사람의 실수로 인한 이상치 데이터를 제거하면서 결측 데이터가 크게 증가했다. 과거 데이터에서 결측 데이터를 삭제했을 때 이용할 수 있는 데이터의 양이 크게 감소하였으며, 타이어 성능 연구 모델에 다양한 사례가 포함되지 않아서 모델의 정확도가 떨어졌다. 결측 데이터를 대체하기 위한 연구를 수행하였다. 타이어 설계 시험 데이터에 다양한 결측 데이터 대체 방법들을 적용해 보았다. 특히 타이어 설계 데이터에는 높은 수준(Level)의 범주형 데이터들이 다수 존재하는 혼합형 데이터 세트이므로, 일반적인 결측 데이터 대체 방법을 적용하기 어려워 범주형 데이터를 숫자형으로 변환(인코딩)하는 과정을 추가하였다. 결측 데이터 대체 정확도 성능과 대체된 데이터를 이용한 타이어 예측 모델의 성능도 평가하였다. 결측 데이터 대체 정확성 연구를 위해 전처리 과정을 통해 결측 데이터가 없는 데이터 세트를 만들었다. 이 무결측 데이터 세트를 기반으로 10개의 결측 데이터 세트를 만들고, 10개의 결측 데이터 세트를 단순삭제(listwise), 임의대체(hotdeck), 평균대체(mean), 다중대체(missForest, MICE), 딥러닝(MIDAS)을 통한 대체 등 다양한 알고리즘을 적용하여 대체하였으며, 대체된 값과 실제 데이터 값의 차이를 ME, RMSE, MPE, MAPE 등의 지표로 비교하였다. 다양한 알고리즘에 의해 대체된 데이터 세트를 사용하여 타이어 성능 예측 모델의 정확도 향상을 비교하고 평가하였다.|Research using machine learning (ML) has increased rapidly over the past decade. This is due to improved CPU, memory, and graphics card performance, which are hardware for computing, and researchers around the world actively interacted through online networks such as GitHub. Tire manufacturers have also launched ML-based tire performance prediction research to shorten product development periods and improve product performance in line with this trend. Data for the study were collected, but there were many missing data over the past 10 years due to changes in the data management system, work process, and management items. In addition, the elimination of outlier data due to errors in the user performing data input has led to a significant increase in missing data data. The amount of data available when missing data was deleted from historical data was significantly reduced, and the accuracy of the model was reduced because various cases were not included in the tire performance research model. Studies have been conducted to replace missing data. Various missing data replacement methods have been applied to tire design test data. In particular, there were a number of categorical data of a high level in the tire design data, and it was converted into a numerical type and applied. The performance of the tire prediction model using the missing data replacement accuracy performance and the replaced data were also evaluated. For the study of the alternative accuracy of missing data, we created a dataset without missing data through the preprocessing process. We created 10 missing data sets based on this missing data set. The 10 missing data sets were replaced by applying various algorithms such as simple deletion, random substitution, average substitution, multiple substitution, and deep learning, and the difference between the replaced and actual data values was compared with indicators such as ME, RMSE, MPE, and MAPE. We compare and evaluate the accuracy improvements of tire performance prediction models using datasets superseded by various algorithms.
URI
http://hanyang.dcollection.net/common/orgView/200000649339https://repository.hanyang.ac.kr/handle/20.500.11754/180102
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > INDUSTRIAL ENGINEERING(산업공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE