[강화학습] 정책 경사 방법 및 REINFORCE 알고리즘

정책 경사 방법

정책 기반 강화학습에서는 최적의 행동을 선택하는 정책 자체를 직접 모델링하고 최적화합니다. 정책은 어떤 상태에서 에이전트가 취할 행동에 대한 확률 분포를 정의합니다. 정책 경사 방법은 이러한 정책의 성능을 개선하기 위해 정책의 매개변수를 조정하는 방법론입니다.

정책 경사 방법의 도입 배경은 비교적 고차원의 연속적인 행동 공간이나 복잡한 정책 공간을 가진 문제에 대해 효과적으로 접근할 수 있기 때문입니다. 목표는 기대 리턴을 최대화하는 정책 매개변수를 찾는 것입니다.

정책 함수는 특정 상태에서 특정 행동을 취할 확률을 결정하는 함수로, 정책 매개변수에 의존합니다. 정책 경사는 이 정책 함수를 매개변수화하고, 기대 리턴의 그라디언트를 계산하여 최적화를 수행하는 기법입니다.

목적 함수는 정책의 성능을 측정하는 기준으로, 일반적으로 기대 리턴의 최대화로 설정됩니다. 기대 리턴은 에이전트가 얻을 수 있는 미래 보상의 합계의 기대값으로 정의됩니다.

정책 경사 정리는 이 목적 함수의 그라디언트가 에피소드 중에 취해진 행동들의 리턴에 비례하여 정책 로그 확률의 기대값으로 나타낼 수 있다는 것을 보여줍니다. 수식으로는 다음과 같이 표현됩니다.

\nabla_\theta J(\theta) = \mathbb{E}_{\tau\sim\pi_\theta} [ \nabla_\theta \log \pi_\theta (a_t|s_t) R ]

여기서 $J(\theta)$ 는 목적 함수, $\pi_\theta$ 는 정책, $R$ 은 리턴, $\theta$ 는 정책 매개변수를 나타냅니다.

REINFORCE 알고리즘은 정책 경사 방법을 구현한 가장 기초적인 형태 중 하나입니다. 에피소드가 완료된 후에 각 행동의 보상을 기반으로 정책을 업데이트합니다.

이 알고리즘은 에피소드별로 학습을 진행하며, 에피소드 동안 취해진 행동들과 얻은 결과로부터 그라디언트를 추정합니다. 그 후, 이 추정된 그라디언트를 사용하여 정책 매개변수를 업데이트합니다. 정책 업데이트 공식은 다음과 같습니다.

\theta_{t+1} = \theta_t + \alpha \nabla_\theta \log \pi_\theta (a_t|s_t) R_t

여기서 $\alpha$ 는 학습률을 나타냅니다.