
데이터셋 분할 비율에 따른 머신러닝 기반의 전력 사용량 예측 성능 비교
Comparing the Machine Learning based Prediction Performance of Electricity Usage according to Dataset Splitting Ratios
- 한국환경에너지공학회
- 한국환경에너지공학회 학술대회지
- 2022년 추계학술발표회
- 2022.12
- 427 - 427 (1 pages)
최근 인공지능을 활용한 빅데이터 분석 및 머신 러닝 기반의 예측 연구가 활발히 진행되고 있다. 특히 에 너지 소비 현황 분석 및 수요 예측을 통해 건 물 에너지와 시스템 제어의 효율화 기 술로서 활용되고 있다. 이 는 확보 가능한 데이터를 활용해 모델을 훈련 시 킬 수 있다는 강점을 가지며 , 기존의 방식보다 진보된 방식으로 건물의 최적 운영 에 효율적이다. 머신러닝 모델을 학습시키기 전, 데이터 전처리 단계에서 데이터셋을 훈련 데이터셋(train dataset)과 테스트 데이터셋 (test dataset)으로 분리하여 야 한다. 훈련 데이터셋은 모델을 학습시키 기 위해 사용되는 반면, 홀드아웃 데이터셋 (holdout dataset) 이라고도 불리는 테스트 데이터셋은 신경망을 훈련 시 키는 데에는 사용되지 않고 모델 성능의 평가에만 사용되게 된다. 이와 같은 데이터셋의 분할을 통해 과대 적합을 방지하고 편향되지 않은 데이터로 모델 성능을 평가할 수 있다. 데이터셋의 분할 비율에 대한 기준은 없으며, 기존 수행된 연구를 확인해보면 일반적으로 훈련 데이터셋을 70-90%, 테스트 데이터셋울 l0~30%로 구성하는 것을 알 수 있다. 본 연구에서는 머신러닝 알고리즘 중 ANN의 MLP Regressor을 활용하여 한 식품공장의 전력 사용량을 예측하고자 한다. 해당 예 측 모델에 적합한 데이터셋 분할 비율을 도출하기 위 해 학습 데이터 의 비율을 10%부터 90%까지 10% 간격으로 조정하여 9가지 케이스에 대해 전력 사용량 예측 성능을 확인 하였다. 예측 성능은 CvRMSE(Coefficient of Variation of Root Mean Square Error)와 한로 확인하였다