logo

[강화학습] TRPO

 

TRPO의 기본 원리

TRPO(Trust Region Policy Optimization)는 강화학습에서 사용되는 정책 최적화 방법 중 하나로, John Schulman et al.에 의해 2015년에 소개되었다. 이 방법은 안정적인 정책 업데이트를 통해 효율적으로 학습하고자 하는 목표를 달성하는 데 중점을 둔다.

 

목적 함수와 최적화 문제

TRPO는 강화학습의 기본 목표인 기대 보상의 최대화를 위해, 정책의 성능을 개선하는 방향으로 정책 파라미터를 업데이트한다. 목적 함수는 기대된 누적 보상을 최대화하는 함수로 정의되며, 이를 수식으로 표현하면 다음과 같다:

maxθEτπθ[t=0Tγtr(st,at)] \max_{\theta} \mathbb{E}_{\tau \sim \pi_{\theta}} \left[ \sum_{t=0}^{T} \gamma^t r(s_t, a_t) \right]

여기서, πθ\pi_{\theta}는 파라미터 θ\theta에 의해 정의되는 정책, τ\tau는 상태-행동 트레젝터리(trajectory), r(st,at)r(s_t, a_t)는 시간 tt에서 상태 sts_t 및 행동 ata_t를 취했을 때의 보상, 그리고 γ\gamma는 할인율을 의미한다.

 

Trust Region의 개념과 중요성

Trust Region 접근 방식은 정책 파라미터를 업데이트할 때, 업데이트의 크기를 제한하여 업데이트 전 후의 정책이 크게 달라지지 않도록 하는 방법이다. 이는 큰 파라미터 업데이트가 학습의 안정성을 해칠 수 있다는 점에서 중요하다. Trust Region 내에서의 업데이트는 정책의 성능을 점진적으로 개선하면서도, 업데이트로 인한 부정적인 영향을 최소화하는 것을 목표로 한다.

 

TRPO의 핵심 알고리즘

 

Policy Improvement의 조건 소개

정책 개선 이론에 따르면, 새로운 정책 π\pi'가 이전 정책 π\pi에 비해 더 나은 성능을 보이기 위해서는 다음 조건을 만족해야 한다:

Esπ[Vπ(s)]>Esπ[Vπ(s)] \mathbb{E}_{s \sim \pi'}[V^{\pi'}(s)] > \mathbb{E}_{s \sim \pi}[V^{\pi}(s)]

여기서 Vπ(s)V^{\pi}(s)는 정책 π\pi 하에서 상태 ss의 가치 함수를 의미한다.

 

Trust Region 내에서의 안전한 Policy 업데이트 방식

TRPO는 Kl-divergence를 사용하여 이전 정책 πold\pi_{\text{old}}와 새 정책 π\pi 사이의 차이를 측정하고, 이 차이가 일정 범위(Trust Region) 내에 있도록 정책을 업데이트한다. 이를 수식으로 나타내면 다음과 같다:

maxθEs,aπold[πθ(as)πold(as)A^πold(s,a)] \max_{\theta} \mathbb{E}_{s,a \sim \pi_{\text{old}}} \left[ \frac{\pi_{\theta}(a|s)}{\pi_{\text{old}}(a|s)} \hat{A}_{\pi_{\text{old}}}(s, a) \right]
subject toEsπold[DKL(πold(s)πθ(s))]δ \text{subject to} \quad \mathbb{E}_{s \sim \pi_{\text{old}}} \left[ D_{KL}(\pi_{\text{old}}(\cdot|s) \,||\, \pi_{\theta}(\cdot|s)) \right] \leq \delta

여기서, A^\hat{A}는 어드밴티지 함수로, 특정 행동이 평균적으로 얼마나 더 좋은지를 평가한다.

 

목적 함수의 한계점 해결을 위한 수학적 접근 방식

TRPO는 목적 함수의 한계점을 해결하기 위해 이론적 근거를 바탕으로 한 수학적 최적화 기법을 사용한다. 특히, TRPO는 자체 목적 함수 내에서 발생할 수 있는 문제를 피하기 위해 목적 함수를 수정하고, 이 수정된 목적 함수에 근거하여 정책을 안전하게 개선하는 방식을 채택한다.

 

TRPO의 장점과 한계

 

타 강화학습 알고리즘 대비 TRPO의 우위성

  • 안정성: TRPO는 안전한 정책 업데이트 방식을 통해 학습 과정을 안정화한다.
  • 효율성: 대규모 문제에 대해서도 높은 효율성을 보인다.
 

TRPO 사용 시 나타나는 주요 이점

  • 보다 빠른 수렴: 적절한 Trust Region 설정을 통해 학습 과정에서의 수렴 속도가 개선될 수 있다.
  • 높은 성능 유지: 큰 정책 업데이트로 인한 성능 저하의 위험 없이 꾸준한 성능 향상을 달성한다.
 

TRPO 적용의 한계와 가능한 해결책

  • 계산 복잡도: TRPO는 계산 비용이 많이 드는 편이기 때문에, 효율성 측면에서 한계가 있다. 이를 개선하기 위해 더 효율적인 알고리즘인 Proximal Policy Optimization(PPO)이 개발되었다.
  • 하이퍼파라미터 설정: Trust Region의 크기 설정과 같은 하이퍼파라미터의 세밀한 조정이 필요한데, 이는 경험적으로 선택되어야 하며 때로는 최적화에 어려움을 줄 수 있다. 자동화된 방법을 통한 하이퍼파라미터 최적화 기술이 개선 방안으로 제안될 수 있다.
Previous
소프트 액터-크리틱(SAC)
Next
PPO