최근 정보화 사회가 되어감에 따라 방대한 양의 데이터가 생산되고 있다. 이에 대해 정보기술(IT)의 중요성이 대두되고 있다. 본 연구에서는 스포츠 중에서 대표적으로 다양한 기록들로 이루어진 야구 데이터를 처리하고 분석하는 방법으로 머신러닝과 물리학적 모델을 활용한다.
야구에서 일어나는 모든 이벤트들은 투수와 타자의 대결로부터 발생된다. 이에 초점을 두고 데이터를 살펴보았을 때, 두 가지의 확인해야할 점이 있다. 첫 번째로, 데이터에 기록되어있는 구종들은 투수 개개인의 주관적 견해에 의해서 정의된 것이기 때문에, 재분류할 필요성이 있다. 두 번째로, 투수는 타자를 상대할 때, 혼란을 주기 위해 사용할 수 있는 구종들을 섞어서 활용하는 것을 보였다. 이 두 경우를 살펴보기 위해서 분류 모델과 패턴의 정량화를 이용하였다.