The purpose of this research is to understand the main factors related to the optimal forecast model and sales forecast for the sales of sporting goods in Seoul by utilizing machine learning technology. For the purpose of conducting the study, we collected daily sales data from January 2019 to April 2023 at S Card member stores among sporting goods stores in Seoul. We collected the weather information on the date of sales, whether it was a weekend, the season, and the daily coronavirus-confirmed data in Seoul, and input it as an explanatory variable. Collected data were analyzed with Python ver 3.8 and cross-validated for predictive power using five machine learning models: KNN algorithm, support vector machine, linear regression, random forest and Xgboost. As a result of cross-validation, the XGboost model showed the highest predictive power, showing an accuracy of 59.4% when forecasting the facility industry in the entire city of Seoul. It was shown that the date factor of sales forecast results for sporting goods was used the most, followed by season, weather, and COVID-19 confirmed cases. Based on the results of this study, it is judged that it will be useful for the management of stores by providing more accurate information to sporting goods sellers, taking into consideration weather information and dates.
본 연구에서는 머신러닝 기법을 활용하여 서울시 스포츠용품 매출액에 대한 최적의 예측 모형과 매출액 예측에 관련된 주요 요인을 파악 하는 것에 목적을 두고 있다. 연구의 수행을 위해 2019년 1월부터 2023년 4월까지의 서울시 스포츠 용품 판매점 중 S카드사 가맹점의 일일 매출액 데이터를 수집하였다. 매출이 발생한 날짜의 기상정보를 수집하고 주말여부, 계절, 서울시 일일 코로나 확진자 데이터를 수집하여 설명변수로 투입하였다. 수집된 데이터는 Python ver 3.8로 분석하였으며 KNN알고리즘, 서포트 벡터머신, 선형회귀, 랜덤포레스트, Xgboost 5가지의 기계학습 모형을 사용해 예측력을 교차 검증하였다. 교차검증결과 XGboost 모델이 가장 높은 예측력을 보여주었으며 서울시 전체 스포츠 용품업에 대한 예측을 실시하였을 때 59.4%의 정확도를 나타내었다. 스포츠 용품 매출액 예측결과 날짜 요인이 가장 많이 사용된 것으로 나타났으며 다음으로 계절, 날씨, 코로나 확진자 순으로 사용된 것으로 결과를 도출하였다. 본 연구의 결과를 토대로 기상정보와 날짜 등을 고려하여 스포츠 용품 판매자들에게 좀 더 정확한 정보를 제공하여 매장 운영에 도움을 줄 수 있을 것으로 판단된다.