인공지능을 이용하여 목표 지점까지 제어하는 가장 대표적인 방법은 강화학습이다. 하지만 그동안 강화학습을 처리하기 위해서는 구현하기 어렵고 복잡한 연산을 처리해야만 했다. 본 논문에서는 이를 개선한 Proximal Policy Optimization (PPO) 알고리즘을 이용하여 가상환경에서 목표지점에 도달하기 위한 계획된 비행궤적을 찾는 방법을 시뮬레이션 하였다. 또한 외부 환경요소가 비행궤적 학습에 미치는 영항을 알아보기 위하여 궤적의 변화, 보상 값의 영향 및 외부 바람등과 같은 변수를 추가하고 궤적 학습 성능 및 학습 속도에 미치는 영향을 비교 분석을 수행한다. 본 결과를 통하여 에이전트가 다양한 외부환경의 변화에도 계획된 궤적을 찾을 수 있다는 것을 시뮬레이션 결과에 따라 알 수 있었으며, 이는 실제 비행체에 적용할 수 있을 것이다.
The most common way to control a target point using artificial intelligence is through reinforcement learning. However, it had to process complicated calculations that were difficult to implement in order to process reinforcement learning. In this paper, the enhanced Proximal Policy Optimization (PPO) algorithm was used to simulate finding the planned flight trajectory to reach the target point in the virtual environment. In this paper, we simulated how this problem was used to find the planned flight trajectory to reach the target point in the virtual environment using the enhanced Proximal Policy Optimization(PPO) algorithm. In addition, variables such as changes in trajectory, effects of rewards, and external winds are added to determine the zero conditions of external environmental factors on flight trajectory learning, and the effects on trajectory learning performance and learning speed are compared. From this result, the simulation results have shown that the agent can find the optimal trajectory in spite of changes in the various external environments, which will be applicable to the actual vehicle.
1. 서론
2. 관련 연구
3. 시뮬레이션 방법
4. 시뮬레이션 결과
5. 결론
References