REINFORCE 알고리즘1 REINFORCE 알고리즘을 이용한 CartPole 강화학습 1.배경 인공지능은 간단하게 보면 함수를 만드는 것. 입력층 -> 은닉층 -> 출력층 목표 : CartPole 게임을 오래 하는 인공지능 만들기 ->DQN에서는 state를 입력하면 어느 행동을 하는 것이 좋은지 행동가치 함수를 만들었음 Reinforce 알고리즘 에서는 각 행동을 할 확률을 출력하도록 만드는 것이 목표. 즉 인공신경망 자체가 어떤 행동을 할지 결정하는 정책함수가 됨. 학습을 위해서 해당 정책이 얼마나 좋은지 평가해야함. -> 정책목적함수 정의 정책목적함수 J(θ) : θ라는 파라미터를 가진 정책함수 π를 평가함. 정책목적함수만 정의하면 경사상승법을 사용해서 정책목적함수를 극대화하는 방향으로 파라미터를 학습을 하게 만들면 됨. reinforce 알고리즘에서는 정책목적함수로 MDP의 가치평.. 2023. 6. 10. 이전 1 다음