613 0

양방향 국소평균 K 최근접 이웃 방법론을 이용한 영화 관객수 예측에 관한 연구

Title
양방향 국소평균 K 최근접 이웃 방법론을 이용한 영화 관객수 예측에 관한 연구
Other Titles
A Study on the Prediction of the Number of Movie Audiences Using the Two-way Local Mean Vector K-Nearest Neighbor Method
Author
이동석
Alternative Author(s)
Dong-Suk Lee
Advisor(s)
차경준
Issue Date
2022. 2
Publisher
한양대학교
Degree
Master
Abstract
TLM-KNN)을 제안하여 관객 수 예측을 진행하였다. 최종적으로 기존의 다항 로지스틱 회귀, 나이브베이즈, 랜덤 포레스트, 서포트 벡터 머신, KNN과 새롭게 제안한 TLM-KNN의 성능을 전체 영화 데이터와 장르별 데이터에 비교 분석하였다. 그 결과 TLM-KNN이 정확도(Accuracy), 각 범주에서의 F1-점수(F1-score), 그리고 MACRO-F1-점수(MACRO-F1-score)에서 모두 제일 좋은 성능을 보인다는 것을 확인하였다.; The Korean film market is a cultural industry with great growth and scale, surpassing 220 million cumulative audiences as of 2019. Accordingly, production companies, distributors, and theaters, which are the main agents of the film industry, are trying to maximize sales and profits by observing the market's response to released films and establishing strategies to respond to them. Thus, the number of audiences is considered a key factor in the sales of the film industry, so this study aims to predict the box office of a movie by the number official audiences. In this study, the movie box office was predicted by machine learning technique. The machine learning methods for predicting the number of audiences, there are multinomial logistic regression, naive Bayes, Random forest, SVM, etc. Among them, KNN is a representative nonparametric classifier and is known to degrade performance when outliers exist or the number of samples is insufficient. However, in movie data, there are outliers and the number of samples is not sufficient. To solve this problem, the Two-way local mean K-nearest neighbor (TLM-KNN) method is proposed which is a combination of the local mean nearest neighbor (LMKNN) method and the generalized nearest neighbor (GNN) method to predict the number of audiences. Finally, the performance of the existing multinomial logistic regression, naive Bayes, random forest, SVM, and KNN and the newly created TLM-KNN were compared and analyzed on the entire movie data and data for each genre. As a result, it was confirmed that TLM-KNN showed the best performance in accuracy, F1-score in each category, and MACRO-F1-score|대한민국 영화 시장은 2019년 기준 누적 관객 수 2억 2000만 명을 돌파하는 등 성장성과 규모가 큰 문화산업이다. 이에 영화산업의 주체인 제작사, 투자자, 배급사, 극장들은 개봉 영화에 대한 흥행을 예측하고 이에 대응하는 전략을 수립해 이에 따른 이익을 극대화하려고 한다. 여기서 관객 수는 영화산업 매출에 핵심요인으로 꼽히므로 이에 본 연구는 최종 관객 수로 영화 흥행을 예측하는 데 목적을 둔다. 본 연구에서는 기계학습 기법으로 영화 흥행을 예측하였다. 관객 수를 예측하는 기계학습 방법 중 다항 로지스틱 회귀, 나이브베이즈, 랜덤 포레스트, 서포트 벡터 머신 (Support Vector Machine; SVM), K-최근접 이웃 (K-Nearest Neighbor; KNN) 등이 있다. 이 중 KNN은 대표적인 비모수적 분류기로 이상치 가 존재하거나 표본 수가 충분하지 않은 경우 성능이 저하되는 것으로 알려져 있다. 그런데 영화 데이터의 경우 이상치가 존재하며 표본 수가 충분하지 않으므로 이를 해결하고자 국소평균 K-최근접 이웃 (Local Mean K-Nearest Neighbor; LMKNN) 기법과 일반화 최근접 이웃 (General Nearest Neighobor; GNN) 기법, 두 가지를 합성한 양방향 국소평균 K-최근접 이웃 (Two-way Local Mean K-Nearest Neighbor
URI
http://hanyang.dcollection.net/common/orgView/200000593301https://repository.hanyang.ac.kr/handle/20.500.11754/167896
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > APPLIED STATISTICS(응용통계학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE