799 0

변수 및 표본 특성의 차이에 따른 건설기업 부도 머신러닝 예측모형 정확도 비교

Title
변수 및 표본 특성의 차이에 따른 건설기업 부도 머신러닝 예측모형 정확도 비교
Other Titles
Accuracy Comparison of Machine Learning Based Models to predict the Bankruptcy of Construction Enterprise According to Characteristics of Factor and Sample
Author
김민규
Alternative Author(s)
Kim Minkyu
Advisor(s)
김주형
Issue Date
2019. 8
Publisher
한양대학교
Degree
Master
Abstract
과거에 많은 기업들이 IMF나 리먼브라더스 사태와 같은 금융위기와 더불어 정치적 리스크, 경기 변동 등 다양한 원인으로 갑작스런 부도가 발생하는 경우가 있었다. 특히 건설기업의 경우 재무제표상에서 건전한 상태를 보이고, 감사의견에서 적정의견으로 분류되었음에도 불구하고 갑작스런 부도 발생이 일어나는 경우가 있다. 이러한 여러 가지 이유로 기업의 부도를 예측하고자 다양한 연구가 진행되어 왔다. 부도 예측에 관한 연구는 전통적인 통계적 분석방법과 머신러닝 분석방법을 활용하여 진행되어 왔다. 전통적인 통계적 분석방법 중 판별분석의 경우 변수간 분산-공분산 행렬(variance-covariance)이 동일하고 정규분포를 가져야한다는 가정이 필요하다는 단점이 있다. 이에 따라 1990년대 이후 다양한 머신러닝 분석방법을 활용한 연구가 다루어지고 있다. 특히 인공신경망(artificial neural network 이하 ANN)의 경우 전통적인 방법론보다 정확도가 높으므로 많이 활용된 방법론 중 하나이다. 복잡하거나 비선형 자료에서 지식이나 패턴 등을 예측할 수 있으며, 상대적으로 적응력(adaptability)이 뛰어나고 견고(robust)하다는 장점이 있다. 그러나 인공신경망의 경우 과도한 학습으로 인한 과대적합(overfitting)의 문제가 발생할 수 있는 단점이 존재하여 이를 극복한 분석방법인 서포트 벡터 머신(support vector machine 이하 SVM)이 등장하였다. SVM의 장점은 ANN에 비하여 결과 해석이 용이하며, 적은 양의 학습자료만으로도 신속하게 분리 학습 수행이 가능하며, 정확도가 높다는 장점이 있다. 그러므로 많은 부도 예측 관련 선행 연구에서 ANN이나 SVM을 활용하여 분석하였다. 이러한 많은 부도 예측의 경우 대부분이 연간보고서를 참고하여 데이터로 활용한다. 그러나 연간보고서를 참고할 경우 중간에 사건이 발생할 가능성과 같은 확률적인 부분을 고려하지 못한다는 단점이 있다. 따라서 이러한 문제점을 고려하기 위하여 베이지안 이론을 기초로 한 방법론인 나이브 베이즈(naive Bayes, 이하 NB)나 확률신경망(probabilistic neural network, 이하 PNN)와 같은 확률론적 머신러닝 방법을 활용하였다. NB나 PNN을 활용한 부도 예측 연구는 진행된 선행연구가 있으나 건설기업을 대상으로 진행한 연구는 미비한 것으로 나타났다. 또한, 변수의 경우 몇몇의 부도 예측 연구에서 재무변수와 비재무변수를 함께 고려하였을 경우 정확도가 더 높은 것으로 나타났으며, 표본의 사이즈에 따라 정확도가 다른 경우도 존재하였다. 따라서 본 연구에서는 재무변수와 비재무변수와 같은 변수적 특성과 표본 사이즈의 크기가 각각 다른 3개의 데이터 셋을 구성하여 ANN, SVM과 확률적 머신러닝 분석방법인 NB, PNN을 모두 활용하여 건설기업 부도 예측 비교분석 실시하는 것을 목적으로 하였다. 표본은 1999년부터 2018년까지를 대상으로 상장 및 상장 폐지, 외감법인과 부도기업을 대상으로 하였다. 데이터 셋1의 경우 재무변수와 비재무변수를 함께 고려하였다. 비재무변수로는 공공공사비율과 직원수를 활용하였는데 비재무변수의 경우 데이터를 확보하는데 어려움이 있어 상장 기업과 상장 폐지 기업만을 확보하여 분석하였다. 나머지 데이터 셋2와 3의 경우 재무변수만 고려되었으며, 쌍대표본과 비쌍대표본으로 구성하여 표본의 특성에 따라 정확도에 어떠한 영향이 나타나는가를 비교하고자 하였다. 결과적으로 재무변수와 비재무변수가 함께 고려된 데이터 셋1의 경우 SVM이 96.30%로 모든 데이터 셋을 통틀어 가장 높은 정확도를 보였으며, 재무변수만 고려된 데이터 셋2와 3의 경우 동일하게 PNN이 가장 높은 정확도를 보였고 다음으로는 ANN이 뒤따랐다. 또한 표본 사이즈가 더 큰 데이터 셋3이 데이터 셋2에 비하여 모든 머신러닝 분석 방법에서 높은 정확도를 보이는 것으로 나타났다. 따라서 비재무변수가 함께 고려된 경우 데이터 셋에서는 SVM의 정확도가 가장 높으며, 재무변수만 고려된 경우에는 PNN이 가장 높다는 결론을 도출하였다. 특히 PNN은 표본 사이즈가 클수록 더 높은 정확도를 나타내었으며, 또한 머신러닝 분석 방법 중 표본 사이즈 변화에 따른 정확도에 가장 큰 차이를 보였다. 데이터 셋1의 경우 표본이 총 66개로 작은 사이즈인데 비재무변수에 대한 표본 확보에 대한 한계점이 존재하였기 때문이다. 따라서 이러한 문제를 해결하여 더 많은 표본을 대상으로 분석을 실시하는 후속 연구가 진행되어야 할 것으로 판단되었다.; In the past, many companies have experienced sudden bankruptcy caused by variety of factors: financial crisis such as the IMF crisis and the collapse of Lehman Brothers, political risk, economic fluctuation, etc. Especially for the construction companies, sudden bankruptcy occurred even though their financial statements were in healthy condition and the opinions of the auditors were classified as legitimate. Regarding these reasons, various researches has been studied to predict firm bankruptcies. Studies on bankruptcy prediction have been carried out using traditional statistical and machine learning methods. Discriminant analysis, one of the traditional statistical methods, has the disadvantage of requiring the assumption that the variances-covariance between variables are the same and also have to be a normal distribution. Thus, researches on various machine learning methods were studied since the 1990s. Particularly, the artificial neural network (ANN) was widely utilized by its higher accuracy level compared with other traditional methodologies. ANN has ability to predict patterns and knowledge in complex or nonlinear data, and has relatively good adaptability and robustness.Despite these advantages, the disadvantage of overfitting due to overlearning in ANN lead to the introduction of the support vector machine (SVM) that overcame ANN’s disadvantage. SVM’s strength is that it is easier to interpret results than using ANN, able to conduct separated learning quickly with a small amount of data, and provide a higher accuracy level. Accordingly, many previous researches on bankruptcy prediction used ANN and SVM methods to analysis. Most of these bankruptcy predictions refer to an annual report. However, referring to the annual report could omit the probability of an event occurring in the interim. In order to solve this problem, probabilistic analysis machine learning methods were introduced such as naive Bayes (NB), which was based on the Bayesian theory, and probabilistic neural network (PNN). Previous studies of bankruptcy prediction using NB and PNN have been conducted, but limited researches appeared for the construction companies.Furthermore, several bankruptcy prediction studies showed higher predictability when the financial and non-financial variables were considered together. Moreover, different predictability depending on the size of the sample existed in some cases. Therefore, the purpose of this study is to do a comparative analysis of the bankruptcy of construction companies using ANN, SVM, NB, and PNN by organizing three data sets with different variables such as financial and non-financial variables and different sample sizes. The samples were chosen from listed and unlisted companies, small and medium-sized enterprise and bankrupt companies from 1999 to 2018. For datasets 1, financial and non-financial variables were considered together. Non-financial variables used the ratio of public construction and the number of employees, but since the non-financial variables were difficult to obtain data, only listed and unlisted entities were secured for analysis. Only the financial variables were considered for the datasets 2 and datasets 3. Also, datasets 2 and 3 compared the effects of accuracy depending on the characteristics of the samples consisting of paired sample unpaired samples. As a result, the datasets 1, where both financial and non-financial variables were considered, the SVM showed the highest accuracy throughout all datasets with 96,30%. Datasets 2 and 3, where only the financial variables were considered, PNN showed the highest accuracy level followed by ANN. In addition, datasets 3 showed higher accuracy in all machine learning methods compared to that of datasets 2. In conclusion, SVM had higher accuracy when non-financial variables were considered together and PNN had highest when only financial variables were considered. In particular, PNN showed higher accuracy in datasets 3 where has bigger sample sizes and also PNN had1 largest difference in accuracy among other machine learning methods. The total sample size of the datasets 1 was small with 66 samples caused by limited sample for the non-financial variables. Therefore, further analysis studies are required with more samples to solve this problem.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/109608http://hanyang.dcollection.net/common/orgView/200000436121
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > ARCHITECTURAL ENGINEERING(건축공학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE