logo

[강화학습] 심층 결정론적 정책 경사(DDPG)

 

심층 결정론적 정책 경사(DDPG)

심층 결정론적 정책 경사(Deep Deterministic Policy Gradient, DDPG)는 연속적인 행동 공간을 가진 환경에서 효과적으로 학습할 수 있는 알고리즘입니다. DDPG는 결정론적 정책을 사용하여 각 상태에서 최적의 행동을 직접 예측하며, 액터-크리틱(Actor-Critic) 구조를 기반으로 심층 신경망을 통해 정책과 가치 함수를 근사합니다. DDPG는 강화학습 분야에서 높은 차원의 행동 공간을 다루기 위한 중요한 도구로, 로봇 제어, 자율주행 차량 등 다양한 분야에 응용되고 있습니다.

 

결정론적 정책과 확률론적 정책의 차이점

결정론적 정책은 주어진 상태에 대해 단일의 행동을 출력합니다. 반면, 확률론적 정책은 주어진 상태에서 각 행동을 취할 확률을 출력하여, 결과적으로 다양한 행동이 선택될 수 있습니다. DDPG는 결정론적 접근을 취함으로써 결과 행동이 더 예측 가능하며, 계산 효율성이 높습니다.

 

액터-크리틱(Actor-Critic) 모델의 기본 구조와 작동 원리

액터-크리틱 모델은 두 가지 주요 구성요소인 액터(행동을 결정)와 크리틱(행동의 가치 평가)으로 이루어집니다. 액터는 현재 상태에서 취해야 할 최적의 행동을 결정하는 역할을 하고, 크리틱은 해당 행동의 가치를 평가하여, 액터가 더 좋은 정책을 배울 수 있도록 합니다.

 

DDPG에서 사용되는 액터-크리틱 모델의 구체적인 구현 방법

DDPG에서 액터와 크리틱은 모두 심층 신경망으로 구현됩니다. 액터 네트워크는 주어진 상태를 입력으로 받아 최적의 행동을 출력하고, 크리틱 네트워크는 주어진 상태와 액터가 결정한 행동을 입력으로 받아 이 행동의 가치를 출력합니다. 학습 과정에서 크리틱은 실제 보상과 예측된 가치 사이의 차이(시간차 오류)를 줄이기 위해 학습되며, 이 오류를 바탕으로 액터 네트워크도 업데이트됩니다.

 

DDPG의 핵심 구성요소

 

리플레이 버퍼(Replay Buffer)의 역할과 중요성

리플레이 버퍼는 에이전트의 경험(상태, 행동, 보상, 다음 상태)을 저장하는 메모리로, 학습 과정 중에 미니 배치를 샘플링해 학습 데이터로 사용합니다. 이는 데이터의 상관 관계를 줄이고 학습 과정을 안정화하는 데 도움을 줍니다.

 

목표 정책(Target Policy)과 목표 가치 함수(Target Value Function)의 도입

DDPG에서는 목표 정책 네트워크와 목표 가치 네트워크를 사용하여 학습의 안정성을 높입니다. 이는 학습 중에 발생할 수 있는 발산 문제를 완화시켜 줍니다.

 

소프트 업데이트(Soft Update) 기법에 대한 설명

소프트 업데이트는 목표 네트워크의 가중치를 매우 느린 속도로 조금씩 업데이트하는 방법입니다. 이를 통해 학습 과정이 안정되고, 수렴 속도가 개선됩니다.

 

DDPG의 학습 과정

 

초기화 단계에서의 주요 설정들

  • 탐험정책: 초기 학습 단계에서 충분한 탐험을 유도하기 위해 사용됩니다. 예로서, 오른쪽 정책 출력에 노이즈를 추가할 수 있습니다.
  • 학습률: 액터와 크리틱 네트워크의 학습률을 적절히 설정합니다.
 

에피소드별 학습 절차의 상세한 설명

  1. 경험 수집: 에이전트가 환경과 상호작용하며 경험(상태, 행동, 보상, 다음 상태)을 리플레이 버퍼에 저장합니다.
  2. 배치 샘플링 및 학습 데이터 준비: 리플레이 버퍼에서 무작위로 미니 배치를 샘플링하여 액터와 크리틱 네트워크 학습에 사용합니다.
  3. 액터와 크리틱의 업데이트 과정: 샘플링된 데이터를 바탕으로 액터와 크리틱 네트워크를 각각 업데이트합니다. 액터는 정책을 개선하는 방향으로, 크리틱은 시간차 오류를 줄이는 방향으로 학습됩니다.
 

학습 후 평가 과정의 개요

학습이 일정 수준 이상 진행된 후, 에이전트의 성능을 평가하기 위해 새로운 에피소드에서 탐험을 배제한 상태로 에이전트를 실행합니다. 이를 통해 학습된 정책의 실제 성능을 평가할 수 있습니다.

Previous
A2C 및 A3C 알고리즘