
토양 내 오염물질 농도 예측을 위한 베이지안 벌점 스플라인
Bayesian Penalized Splines for Predicting Concentrations of Soil Contaminant*
- 한국자료분석학회
- Journal of The Korean Data Analysis Society (JKDAS)
- Vol.24 No.5
- : KCI등재
- 2022.10
- 1705 - 1717 (13 pages)
토양오염의 진단을 위해서는 조사 부지의 토양 내 오염물질의 분포를 정확히 파악할 필요가 있다. 하지만 조사 부지에서 관측이 가능한 모든 지점을 생화학적으로 조사하는 것은 현실적으로 불가능하므로 조사 부지 내 일부 선정된 지점에서 얻은 자료를 바탕으로 공간예측모형을 통해 조사 부지의 토양 내 오염물질 농도를 예측하게 된다. 토양 자료는 자료의 특성상 자료의 크기가 충분히 크지 않은 경우가 종종 발생하고, 이에 따라 공간예측의 정확성이 크게 감소할 수 있다. 따라서 본 연구에서는 이러한 문제를 해결하고자 환경부에서 제공하는 토양측정망 자료를 사전 정보로 활용하여 조사 부지의 토양 내 오염물질 농도를 예측하는 베이지안 벌점 스플라인 모형을 제안한다. 또한, 제안 모형의 성능을 평가하기 위해 RMSE를 비롯한 여러 성능 평가 지표를 이용하여 제안 모형과 여러 비교 모형과의 표본 자료 크기 별 예측 정확성을 비교하였다. 성능 평가 결과, 제안 모형의 성능이 비교 모형들에 비해 유용한 성능을 보임을 확인할 수 있었다. 특히, 표본 자료의 크기가 비교적 작을수록 제안 모형의 성능이 비교 모형들이 비해 더욱 준수한 성능을 보였다. 따라서 조사 부지에 대한 토양 자료가 상대적으로 부족한 토양 조사의 초기 단계에서 토양 내 오염물질의 분포를 파악하고자 할 때 제안 모형의 사용을 제안한다.
For the diagnosis of soil contamination, it is necessary to accurately understand the distribution of pollutants in the soil of the survey site. However, since it is practically impossible to investigate all observable points in the survey site, the concentration of pollutants in the soil of the survey site is predicted through a spatial prediction model based on data obtained from some selected points in the survey site. However, due to the nature of the soil data, the size of the data is often insufficient, which can greatly reduce the accuracy of spatial prediction. Therefore, in this study, to solve this problem, we propose a Bayesian penalized spline model that predicts the concentration of contaminants in the soil of the survey site by using the soil quality monitoring network data provided by the Ministry of Environment(MOE) in Korea as prior information. In addition, in order to evaluate the performance of the proposed model, RMSE, MAE, MAPE were used to compare the prediction accuracy by data size with several comparative models. As a result of the performance evaluation, it was confirmed that the performance of the proposed model showed better performance than the comparative models. In particular, the smaller the data size, the better the performance of the proposed model compared to the comparative models. Therefore, the use of the proposed model can be considered when trying to understand the distribution of pollutants in the soil at the initial stage of soil survey, where soil data for the survey site is relatively scarce.
1. 서론
2. 연구 방법
3. 성능 평가
4. 결론
Reference