979 0

데이터 분석을 위한 프로 야구 기록 예측 모델 및 시각화 도구

Title
데이터 분석을 위한 프로 야구 기록 예측 모델 및 시각화 도구
Author
김주희
Advisor(s)
최용석
Issue Date
2017-02
Publisher
한양대학교
Degree
Master
Abstract
본 논문에서는 R을 활용한 야구 통계 데이터 다차원 시각화 도구 구축과 HITS-BPP(Hyperlink-Induced Topic Search for Baseball Player Performance) 알고리즘을 적용한 다년도 야구 선수 평가 기법을 제안하고, 마지막으로 프로 야구 선수의 향후 기록을 예측하는 모델을 제시한다. 제 3장에서는 MLB 선수의 시즌별 기록 데이터와 한국 프로야구 선수, 팀 시즌별 기록 데이터를 기반으로 구글에서 제공하는 R 패키지인 googleVis를 이용하여 시각화하는 웹페이지를 구축을 진행하였다. 데이터는 버블차트로 나타내며 버블의 사이즈, 버블의 색상, 좌표에서 기록의 속성들을 변경해가며 비교 및 분석이 가능하다. 웹페이지 기능 중 타임 슬립 애니메이션을 사용하여 KBO 타고투저 현상 분석, 객체 집단에서의 우수 선수 검출, 선수 간 비교 분석, 단일 선수 분석을 가능하도록 커스터마이징하였다. 해당 웹페이지를 통해 시간 순으로 기록의 변화를 관찰할 수 있고, 기록의 속성들을 바꿔가면서 다각도적으로 선수의 기록을 분석할 수 있음을 확인하였다. 제 4장에서는 HITS-BPP 알고리즘을 적용하여 타자의 투수 별 상대 타율을 사용하여 객관적으로 평가할 수 있는 평가 기법을 제안한다. 야구 기록 중 타자의 투수 별 상대 타율은 타자가 특정 투수를 상대로 낸 타율이기 때문에 그 당시 타자와 투수의 능력을 반영하고 있다고 할 수 있다. 각 타자와 투수를 이분 그래프 형태로 나타내고 서로 상대한 상대 타율 정보는 링크로 연결한다. 이 링크의 값은 타자의 투수 별 상대 타율이며, 이 값을 연구를 통해 도출한 기법에 대입하여 다년도 타자의 순위와 투수의 순위를 결정한다. 타자의 통합 타율 순위와 본 논문에서 제안한 기법으로 매긴 순위를 각각 통합 WAR 순위와 유사도를 비교하는 실험을 진행하였다. 그 결과 동일한 시즌에 활동하지 않은 선수간의 비교가 가능하다는 것을 실험을 통해 확인하였다. 제 5장에서는 프로 야구 선수들의 시계열 기록 데이터를 분석하여 향후 기록을 예측하는 모델을 제시한다. 프로 야구 선수의 시즌 기록들을 년차 단위로 나열한 시계열 기록 데이터를 사용하였다. 이 시계열 기록 데이터로 선수 간 Pearson Correlation Coefficient를 이용하여 이웃한 선수를 뽑는다. 이웃한 선수를 대상으로 가중 평균 보정을 계산하여 향후 기록을 예측하였다. 이를 통해 도출된 값과 Multiple Linear Regression을 이용하여 나온 예측 값을 비교하는 실험을 진행하였고, Pearson Correlation Coefficient 식에 벡터의 값을 대입하여 계산하는 Choi Correlation Coefficient 모델을 이용한 예측 값과 비교하는 실험을 진행하였다. 실험 결과 본 논문에서 제안한 모델로 프로 야구 선수의 향후 기록을 예측할 수 있다는 것을 확인하였다.
URI
https://repository.hanyang.ac.kr/handle/20.500.11754/124222http://hanyang.dcollection.net/common/orgView/200000430045
Appears in Collections:
GRADUATE SCHOOL[S](대학원) > COMPUTER SCIENCE(컴퓨터·소프트웨어학과) > Theses (Master)
Files in This Item:
There are no files associated with this item.
Export
RIS (EndNote)
XLS (Excel)
XML


qrcode

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

BROWSE