Q-러닝1 DQN을 이용한 CartPole 강화학습 코드 참고 : 첫번째 훈련 - Codetorial 1.배경인공지능은 간단하게 보면 함수를 만드는 것. 입력층 -> 은닉층 -> 출력층 목표 : CartPole 게임을 오래 하는 인공지능 만들기 -> 더 구체적으로는 현재 CartPole의 state를 입력하면, 왼쪽으로 이동하는게 좋을지 오른쪽으로 이동하는게 좋을지 알려주는 행동가치함수 Q(s)를 만드는 것 (s라는 상황에서 왼쪽으로 이동했을 때의 보상과 오른쪽으로 이동했을 때의 보상을 출력) 즉 Q(s)의 출력은 크기가 2인 1차원 배열. 이때 Q(s,a)는 Q(s)에서 a라는 행동을 했을 때의 행동가치. 이때 학습을 위해서는 2가지가 필요함 1.입력 데이터 (state 즉 상황) 2.입력 데이터에 따른 올바른 출력 데이터 우리는 2번째, 올바른 출력 .. 2023. 6. 7. 이전 1 다음