상세검색
최근 검색어 전체 삭제
다국어입력
즐겨찾기0
산업기술연구논문지 제29권 3호.jpg
KCI등재 학술저널

AWS DeepRacer를 활용한 강화학습 알고리즘의 성능 평가 및 실제 트랙 검증

Performance Evaluation and Actual Track Verification of Reinforcement Learning Algorithms Using the AWS DeepRacer

DOI : 10.29279/jitr.k.2024.29.3.1
  • 27

본 논문에서는 AWS 딥레이서를 활용하여 다양한 주행 환경에서 PPO와 SAC 강화학습 알고리즘의 성능을 평가하고 분석하였다. 강화학습 알고리즘의 성능에 영향을 미치는 요소들은 주행 트랙의 복잡성, 최대 주행 속도, 그리고 보상함수 등을 고려하였다. 단순한 트랙에서 최대 주행 속도가 1.5m/s에서는 PPO 알고리즘이 SAC 알고 리즘보다 적은 훈련시간으로 학습이 가능하지만, SAC 알고리즘이 PPO 알고리즘에 비해 보다 정확하게 중앙선을 따라 주행한다. 주행 속도가 2.5m/s로 빨라지거나, 주행 트랙이 복잡해지면 PPO 알고리즘은 훈련시간이 증가하더 라도 트랙을 완주하지만, SAC 알고리즘은 학습시간이 부족하여 완주하지 못하였다. 이같은 시뮬레이션 결과를 검증하기 위해 실제 트랙을 구현하고, 실물 딥레이서 차량에 학습한 모델을 적용하였다. 결과적으로 실제 트랙에서 시뮬레이션 결과와 유사하게 안정적으로 자율 주행이 가능함을 확인하였다.

This study evaluated and analyzed the performance of the PPO and SAC reinforcement learning algorithms in various driving environments using the AWS DeepRacer. Factors affecting the performance of the reinforcement learning algorithm include the complexity of the driving track, maximum speed, and reward function. The PPO algorithm can be learned with less training time than the SAC algorithm at a maximum speed of 1.5 m/s on asimple track. , the SAC algorithm drives along the centerline more accurately than the PPO algorithm. When the maximum speed is 2.5 m/s or the driving track is complex, the PPO algorithm can complete the track even if the training time increases; in contrast, the SAC algorithm cannot complete the track owing to insufficient learning time. To verify the simulation results, we implemented an actual trackand uploaded the simulation model to a DeepRacer vehicle. The experimental confirmed that stable autonomous driving was possible on an actual track, similar to the simulation results.

Ⅰ. 서 론

Ⅱ. 실험 환경

Ⅲ. 시뮬레이션 성능 분석

Ⅳ. 실제 주행 트랙 검증

Ⅴ. 결 론

References

로딩중