하천의 과다한 조류 발생은 취수원 및 수생태 환경에 좋지 않은 영향을 줄 수 있으며 이에 대한 지속적인 관리가 중요하다. 본 연구에서는 낙동강 유입 지류 하천에서 조류 발생의 정량적 지표인 chlorophyll-a 농도를 예측하는 자동 머신러닝 모형 (AutoML: automated machine learning)을 구축하였다. AutoML은 머신러닝 모형의 구축을 위한 데이터 전처리, 모형 선정 및 최적화 과정의 편의성을 높여 상대적으로 용이한 모형 구축을 가능하게 하는 장점이 있으며, 본 연구에서는 AutoGluon을 이용하여 AutoML을 구축하고 기존에 널리 사용되는 머신러닝 모형인 random forest 및 XGBoost모형과 그 성능을 비교하였다. 모형 성능의 비교는 모형 성능의 평가에 활용되는 정량 지표인 Nash-Sutcliffe coefficient of efficiency (NSE), root mean squared error (RMSE) 및 RMSE-standard deviation ratio (RSR)를 활용하였다. 분석결과 AutoGloun, RF, XGB 세가지 모형의 RSR 값이 각각 0.564, 0.752, 0.811로 AutoGluon이 가장 우수한 성능을 보이는 것으로 확인되었다. 또한 AutoGluon 모형의 구축에 사용된 각 변수가 모형의 성능에 미치는 상대적 중요도인 feature importance를 확인하여 중요도가 낮은 변수부터 순차적으로 변수를 제거하면서 성능의 변화를 비교하였다. 분석결과 RSR이 0.542–0.579의 범위를 보여 입력변수가 제한적인 경우에도 일정 수준 이상의 안정적인 성능이 확보될 수 있음을 확인하였다.
Excessive algal blooms in rivers can have negative impacts on water resources and aquatic ecosystems. Therefore, continuous management of algal bloom is essential. In this study, an automated machine learning (AutoML) model was developed to predict chlorophyll-a concentrations. AutoML has the advantage of simplifying the machine learning model development process by streamlining data preprocessing, model selection, and optimization, thus making model construction relatively easier. In this study, AutoGluon was used to implement AutoML, and its performance was compared with that of widely used machine learning models (i.g. Random Forest and XGBoost). Model performance was evaluated using three quantitative metrics: Nash–Sutcliffe Efficiency (NSE), Root Mean Squared Error (RMSE), and the Root Mean Squared Error–Observation Standard Deviation Ratio (RSR). The analysis showed that the RSR values for AutoGluon, RF, and XGB models were 0.564, 0.752, and 0.811, respectively, indicating that AutoGluon demonstrated the best performance. Additionally, the relative importance of the input features used in the development of the AutoGluon model was explored. Features were sequentially removed based on their importance ranking to assess the impact on model performance. The results showed that the RSR ranged from 0.542 to 0.579, verifying that the model maintained a stable performance even when input variables were limited.
1. 서 론
2. 재료 및 실험방법
3. 결과 및 고찰
4. 결 론
References
(0)
(0)