상세검색
최근 검색어 전체 삭제
다국어입력
즐겨찾기0
국가지식-학술정보

한국프로야구 경기결과 예측을 위한 머신러닝 성능 비교와 스포츠 팬 몰입(fan engagement) 함의에 관한 탐색적 연구

An Exploratory Study on the Machine Learning Application for Predicting Korean Professional Baseball Game Results and Fan Engagement Implications

  • 3
커버이미지 없음

This study was conducted to explore fan engagement implications by predicting game results, which is the biggest concern of professional sports fans. We conducted an exploratory study to assess machine learning application for predicting the outcome of Korean professional baseball games and compare the performance of accuracy. For the empirical analysis, we used Python 3.11.5 to collect 108 variables related to 15,488 (n=30,976) games from the 2013-2024 seasons from Statiz (https://statiz.sporki.com/), a site specializing in Korean professional baseball statistics. The data set was constructed to reflect the relativity of teams/players to opposing teams known before the start of the actual baseball game and to reflect the recent game flow. The data was then analyzed using seven AI algorithms (Logistic Regression, Linear Support Vector Machine, Extra Tree, Support Vector Machine, Light-GBM, Gradient Boosting, and Artificial Neural Network) to predict game outcomes. The empirical results showed that the logistic regression model with 18 variables derived from the step-wise selection method had the best prediction accuracy of 59.3%. This study has both theoretical and practical implications providing academic basis for explicitly utilizing the implicit AI-based sports game prediction model for fan engagement.

본 연구는 프로스포츠 팬의 가장 큰 관심사인 경기결과 예측을 통해 팬의 해당 스포츠에 몰입할 방안을 탐색적으로 모색하기 위해 실시되었다. 이를 위해 본 연구에서는 한국프로야구 경기결과 예측을 위한 머신러닝 성능 비교와 팬 몰입(fan engagement) 함의에 관한 탐색적 연구를 시행하였다. 실증적인 분석을 위해 본 연구에서는 Python 3.11.5을 활용하여 한국 프로야구 통계 전문 사이트인 스탯티즈(https://statiz.sporki.com/)에서 2013~2023시즌의 15,488(n=30,976)경기와 관련한 108개 변수를 수집하였다. 실제 프로야구 경기가 시작하기 전 알 수 있는 상대 팀과의 팀/선수 간 상대성을 반영하고, 최근 경기 흐름을 반영하여 데이터 세트를 구축하였다. 이후 경기결과 예측을 위하여 7가지 인공지능 알고리즘(로지스틱 회귀, 선형 서포트 벡터 머신, 엑스트라 트리, 서포트 벡터 머신, Light-GBM, 그래디언트부스팅, 인공신경망)을 통해 데이터를 분석하였다. 분석 결과, 단계적 선택법을 통해 도출한 18개 변수를 로지스틱 회귀 모델에 적용하였을 때의 예측 정확도가 59.3%로 가장 우수하였다. 본 연구는 프로야구 경기를 보는 팬들이 경기가 발생하기 전 양 팀 간의 경기결과를 예측하기 위해 사용 하는 암묵적인 정보들을 명시적으로 활용하여 팬이 경기에 몰입할 수 있는 정보를 제공할 수 있는 학술적 근거를 마련하였다는 점에서 이론적·실무적 시사점을 지닌다.

(0)

(0)

로딩중