스마트 제조에서의 센서 데이터 저장 형식별 머신러닝 모델 처리 효율 분석
Analysis of Machine Learning Model Processing Efficiency Across Sensor Data Storage Formats in Smart Manufacturing
- 한국시뮬레이션학회
- 한국시뮬레이션학회 논문지
- 제34권 제4호
-
2025.1277 - 89 (13 pages)
-
DOI : 10.9709/JKSS.2025.34.4.077
- 30
대규모 데이터를 활용한 머신러닝 기반 분석이 보편화되면서, 데이터의 저장 형식이 모델의 처리 성능과 시스템 자원 효율성에 미치는 영향이 점차 중요해지고 있다. 본 연구에서는 다양한 데이터 저장 형식이 머신러닝 모델의 처리 성능에 미치는 영향을 비교 분석한다. 실제 제조 공정에서 수집한 데이터를 기반으로, 대규모 데이터셋을 추가 구성, CSV, JSON, Parquet, Feather, HDF5의 5가지 저장 형식과 Linear Regression, Random Forest, XGBoost, Artificial Neural Networks 4가지 모델을 대상으로 하여 데이터 로딩, 학습, 추론 시간, 메모리 사용량, 예측 성능(RMSE) 등을 측정한다. 실험 결과, 저장형식은 실행 성능과 자원 사용 효율성에 실질적인 영향을 미쳤으며, 특히 Feather와 Parquet, HDF5 형식은 대규모 데이터환경에서 높은 처리 효율을 보여주었다. 반면, JSON은 구조적 비효율로 인해 실시간 예측이나 대용량 데이터를 다루는 환경에서는 부적합함을 확인할 수 있었다. 이러한 결과는 데이터 저장 형식이 머신러닝 처리 성능에 직접적 영향을 준다는 것을 보여주며, 실제 제조 데이터 처리를 위한 시스템 설계 시 저장 형식 선택을 위한 실증적 근거를 제공한다.
With the rapid adoption of smart factories, storing and processing sensor data is increasingly affecting the performance of machine learning-based analytics and overall system efficiency. This study conducts a comparative analysis of how different data storage formats affect the overall processing performance of machine learning models in manufacturing environments. Using real sensor data collected from an actual production process, large-scale datasets are constructed and evaluate 5 storage formats—Comma-separated values(CSV), Javascript object notation (JSON), Parquet, Feather, and Hierarchical data format(HDF5)—and 4 models—Linear Regression, Random Forest, XGBoost, and Artificial Neural Networks. Execution performance metrics such as data loading, training, inference, and total execution time, as well as resource-related metrics like memory usage and file size, and RMSE are measured and analyzed. The results show that storage format has a tangible impact on both processing performance and resource efficiency, with Feather, Parquet, and HDF5 performing particularly well in large-scale data environments. In contrast, JSON exhibited structural inefficiencies, making it less suitable for real-time or high-volume applications. These findings highlight the importance of storage format selection in optimizing machine learning pipelines and provide empirical evidence for system design in smart manufacturing sensor data environments.
1. 서론
2. 데이터 저장 형식과 머신러닝 모델
3. 실험 설계
4. 실험 결과 및 분석
5. 결론
References
(0)
(0)