머신러닝 기법을 적용한 학업성취도 예측 모델 설계 및 개발: 중국 중학생의 패널자료를 기반으로

Application of Machine Learning for Development of Academic Performance Prediction Model: Based on Chinese Students Panel Data
2021. 8
본 연구는 학업성취를 예측할 수 있는 예측모델을 구축하기 위해 2016년 중국 교육 패널 조사(CEPS) 자료를 바탕으로 중학생 학업성취의 영향 요인을 탐색하여 예측 모델을 만들었다. 이로써 예측 모델의 구축 및 조기 교육적 개선에의 시사점을 제시하는데 그 목적이 있다. 이를 위해 첫째, 선행연구를 바탕으로 학생 학업성취에 영향을 미치는 요인을 개인 요인, 가정 요인, 학교 요인 및 방과 후 활동 요인으로 구분하여 설정하였다. 둘째, 구분된 4가지 요인을 바탕으로 중국 교육 패널 조사(CEPS) 설문을 분석하여 각 요인의 변수로 선정하였다. 셋째, 각 요인 단위로 의사결정나무 모델 및 랜덤 포레스트 모델을 만들었으며 모델의 성능평가를 통해 랜덤 포레스트 모델을 최종 모델의 토대로 선정하였다. 또는 피어슨 상관계수 및 특징중요도를 통해 유용한 특징을 선택하여 최종모델을 구축하였다. 넷째, 모델 튜닝을 통해 최종모델을 최적화 하여 예측력을 향상시켰다. 연구결과, 첫째, 4가지 요인 중에 가정 요인이 학업성취도에 가장 큰 영향을 미치며 방과 후 활동이 그 뒤에 있다. 더 구체적으로 보면 가정 요인에 부모님의 학업성취에 대한 기대가 학생의 아주 큰 영향을 준다. 부모의 직업은 학업성취도에 영향을 주나 아버지와 어머니의 직업은 비슷한 영향을 나타났다. 방과 후 활동도 학업성취도에 영향을 미치는데 주로 주중/주말에 과제 수행 상황 및 텔레비전 보기가 영향을 미친다. 둘째, 학업성취도를 예측하기 위한 정확도와 안정성이 높은 랜덤 포레스트 모델을 토대로 예측 모델을 만들었으며 최종적으로 n_estimators=105, max_depth=9, min_samples_split=9, 나머진 파라미터가 디폴트값으로 랜덤 포레스트 모델을 만들었다. ‘부모의 학업성취에 대한 기대’, ‘아버지 직업’, ‘어머니 직업’, ‘책 수량’, ‘주말에 학교 숙제 수행’, ‘주중에 학교 숙제 수행’, ‘주중에 텔레비전 보기’, ‘주말에 텔레비전 보기’로 모델의 종속변수가 되어 이 8개 특징으로 학업성취를 예측 할 수 있다. 예측 정확도는 75%다. 셋째, 랜덤 포레스트 모델은 의사결정 나무 모델보다 더 좋은 성능이 나타났다. 각 요인에서 모델을 구축 시, 변수가 많을 수록 정확도와 정밀도에 있어 랜덤 포레스트 모델의 표현이 좋아지고 의사결정 나무 모델과의 차이가 커지면서 더 좋은 성능이 나타났으나 재현율에 있어서 오히려 의사결정 나무가 더 좋은 성능이 나타났다. 전체적으로 볼 때, 랜덤 포레스트 모델은 더 좋은 안정성을 보여줬다. 또는 본 연구의 데이터가 불 균형하기 때문에 랜덤 포레스트 모델이 불 균형 데이터인 경우에 더 적합한 것을 본 연구에서 다시 확인할 수 있다. |To develop a predictive model that can predict academic performance, this study explored the factors affecting the academic achievement of middle school students based on the 2016 China Education Panel Survey (CEPS) data, and develop a predictive model. Its purpose is to construct a predictive model and propose inspirations related to improving educational methods in the early stages of education. First, on the basis of advanced research, the factors affecting students' academic performance could be divided into personal factors, family factors, school factors, and after-school activities factors. Second, based on these four major factors, analyzed the China Education Panel Survey (CEPS) data and picked the variables of each factor. Third, a decision tree model and a random forest model were made with each factor as a unit, and the random forest model was decided to make as the final model based on the performance evaluation of each model. In addition, the final model is constructed by selecting useful features, based on Pearson's correlation coefficient and feature importance. Fourth, the final model was optimized through parameters tuning, which improves the predictive ability. The results of the study show that, first, among these four factors, family factors have the greatest impact on the academic performance of students, followed by after-school activities. More specifically, parents’ expectations for academic achievement of the student have a great impact on students. Occupations of parents also have an impact on academic performance, and fathers’ and mothers’ occupations have similar effects. After-school activities have an impact on academic performance, mainly from the impact of how homework being finished in mid-week/weekend homework, and the impact of watching TV. Second, in order to predict the academic performance of students, a prediction model, with related high accuracy and stability, was developed based on a random forest model, "Expectation of academic achievement from parents" "father's occupation" "mother's occupation" "number of books at home" "doing homework on the weekend " "doing homework in the weekdays" "watching TV in the weekdays" "watching TV on weekend " is subordinate variables of the model. The prediction accuracy is 75%. Third, the random forest model shows better performance than the decision tree model. Among the various factors, the more variables are used when constructing the model, the better the performance of the random forest model will be in terms of accuracy and precision. But in terms of recall, instead, the decision tree shows better performance. On the whole, the Random Forest model showed better stability.
