본문 바로가기

강화학습2

HungryCat 강화학습1 - A2C 알고리즘 (with ML-Agent) 개요 내가 만든 모바일 게임인 HungryCat을 유니티 ML-Agent를 이용해서 강화학습 시켜보려고 한다. 다운로드 링크 : https://play.google.com/store/apps/details?id=com.Truer.HungryCat Hungry Cat - Google Play 앱 배고픈 고양이는 물고기가 먹고싶어요! play.google.com 먼저 게임 소개를 간단히 하자면 플래피 버드와 게임 방식이 똑같다. 터치하면 고양이가 점프를 하고, 굴뚝 사이를 지나가면 되는 게임이다. 먼저 강화학습을 위해 state, behavior, reward를 정의해 보겠다. State state는 2가지 방식을 생각할 수 있다. 첫째로는 RenderTexture를 활용한 화면 캡처 방식 두번째로는 오브젝.. 2023. 8. 3.
DQN을 이용한 CartPole 강화학습 코드 참고 : 첫번째 훈련 - Codetorial 1.배경인공지능은 간단하게 보면 함수를 만드는 것. 입력층 -> 은닉층 -> 출력층 목표 : CartPole 게임을 오래 하는 인공지능 만들기 -> 더 구체적으로는 현재 CartPole의 state를 입력하면, 왼쪽으로 이동하는게 좋을지 오른쪽으로 이동하는게 좋을지 알려주는 행동가치함수 Q(s)를 만드는 것 (s라는 상황에서 왼쪽으로 이동했을 때의 보상과 오른쪽으로 이동했을 때의 보상을 출력) 즉 Q(s)의 출력은 크기가 2인 1차원 배열. 이때 Q(s,a)는 Q(s)에서 a라는 행동을 했을 때의 행동가치. 이때 학습을 위해서는 2가지가 필요함 1.입력 데이터 (state 즉 상황) 2.입력 데이터에 따른 올바른 출력 데이터 우리는 2번째, 올바른 출력 .. 2023. 6. 7.