상세검색
최근 검색어 전체 삭제
다국어입력
즐겨찾기0
표지.png
학술저널

데이터셋 분할 비율에 따른 머신러닝 기반의 전력 사용량 예측 성능 비교

Comparing the Machine Learning based Prediction Performance of Electricity Usage according to Dataset Splitting Ratios

최근 인공지능을 활용한 빅데이터 분석 및 머신 러닝 기반의 예측 연구가 활발히 진행되고 있다. 특히 에 너지 소비 현황 분석 및 수요 예측을 통해 건 물 에너지와 시스템 제어의 효율화 기 술로서 활용되고 있다. 이 는 확보 가능한 데이터를 활용해 모델을 훈련 시 킬 수 있다는 강점을 가지며 , 기존의 방식보다 진보된 방식으로 건물의 최적 운영 에 효율적이다. 머신러닝 모델을 학습시키기 전, 데이터 전처리 단계에서 데이터셋을 훈련 데이터셋(train dataset)과 테스트 데이터셋 (test dataset)으로 분리하여 야 한다. 훈련 데이터셋은 모델을 학습시키 기 위해 사용되는 반면, 홀드아웃 데이터셋 (holdout dataset) 이라고도 불리는 테스트 데이터셋은 신경망을 훈련 시 키는 데에는 사용되지 않고 모델 성능의 평가에만 사용되게 된다. 이와 같은 데이터셋의 분할을 통해 과대 적합을 방지하고 편향되지 않은 데이터로 모델 성능을 평가할 수 있다. 데이터셋의 분할 비율에 대한 기준은 없으며, 기존 수행된 연구를 확인해보면 일반적으로 훈련 데이터셋을 70-90%, 테스트 데이터셋울 l0~30%로 구성하는 것을 알 수 있다. 본 연구에서는 머신러닝 알고리즘 중 ANN의 MLP Regressor을 활용하여 한 식품공장의 전력 사용량을 예측하고자 한다. 해당 예 측 모델에 적합한 데이터셋 분할 비율을 도출하기 위 해 학습 데이터 의 비율을 10%부터 90%까지 10% 간격으로 조정하여 9가지 케이스에 대해 전력 사용량 예측 성능을 확인 하였다. 예측 성능은 CvRMSE(Coefficient of Variation of Root Mean Square Error)와 한로 확인하였다

로딩중