[강화학습] 강화학습의 주요 개념 및 용어 소개

환경(Environment)

환경은 에이전트가 행동을 취하고 그 결과를 경험하는 모든 것을 포함하는 외부 세계를 의미합니다.
에이전트는 환경에서 행동을 취하고, 환경은 그 행동에 대한 결과로 상태 변화와 보상을 에이전트에게 제공합니다.
환경은 정적(변하지 않는) vs 동적(변하는), 연속(연속적인 상태 및 행동) vs 이산(유한하고 구분된 상태 및 행동)으로 분류될 수 있습니다.

에이전트(Agent)

에이전트는 환경에서 행동을 취하며 학습하고 결정을 내리는 주체입니다.
에이전트는 주어진 환경에서 보상을 최대화하기 위한 최적의 행동 방식을 학습하는 것이 주요 역할입니다.
에이전트는 정책(policy), 가치 함수(value function), 모델(model) 등으로 구성됩니다. 정책은 상태에 따른 행동의 맵핑, 가치 함수는 특정 상태나 행동의 가치를 추정하는 함수입니다.

상태(State)

상태는 에이전트와 환경의 현재 상황을 기술하는 정보입니다.
상태는 에이전트가 결정을 내릴 때 참고하는 중요한 정보로, 각 상태에 대한 적절한 행동을 결정하는 데 필요합니다.
상태공간은 에이전트가 존재할 수 있는 모든 가능한 상태의 집합입니다. 상태공간이 크고 복잡할수록 학습은 더 어려워집니다.

행동(Action)

행동은 에이전트가 특정 상태에서 취할 수 있는 모든 가능한 조치입니다.
행동은 연속적이거나 이산적일 수 있습니다. 에이전트는 정책에 따라 특정 상태에서 어떤 행동을 선택할지 결정합니다.
행동공간은 에이전트가 취할 수 있는 모든 가능한 행동의 집합입니다. 행동공간의 크기가 학습 과제의 난이도에 큰 영향을 미칩니다.

보상(Reward)

보상은 에이전트가 특정 행동을 취했을 때 환경으로부터 받는 피드백입니다.
보상은 에이전트가 목표를 달성하는 데 얼마나 잘하고 있는지를 나타내며, 학습 과정에서 에이전트의 행동을 조정하는 데 사용됩니다.
적절한 보상 구조는 효과적인 학습을 위해 매우 중요합니다. 보상 구조가 잘못 설계되면 비효율적이거나 원치 않는 행동을 학습할 수 있습니다.

정책(Policy)

정책은 특정 상태에서 에이전트가 취할 행동을 결정하는 규칙 또는 전략입니다.
결정론적 정책은 특정 상태에서 항상 동일한 행동을 취하는 반면, 확률론적 정책은 특정 상태에서 여러 행동 중 하나를 확률적으로 선택합니다.
최적의 정책은 에이전트가 환경에서 가능한 최대의 보상을 얻게 하는 정책입니다. 정책 최적화는 강화학습의 주요 목표 중 하나입니다.

가치 함수(Value Function)

가치 함수는 특정 상태나 행동의 장기적 가치를 추정하는 함수입니다.
상태 가치 함수(V(s))는 특정 상태에서 시작해 정책을 따를 때 기대할 수 있는 반환값을 나타내고, 행동 가치 함수(Q(s,a))는 특정 상태에서 특정 행동을 취했을 때 기대할 수 있는 반환값을 나타냅니다.
가치 함수는 최적의 정책을 찾는 데 핵심적인 역할을 합니다. 이를 통해 어떤 상태나 행동이 좋은 결과로 이어지는지 판단할 수 있습니다.

감가율(Discount Factor)

감가율은 미래 보상의 현재 가치를 결정하는 요소로, 값이 0과 1 사이입니다.
감가율은 미래의 보상을 얼마나 중요하게 고려할지 결정합니다. 낮은 감가율은 단기적 보상을, 높은 감가율은 장기적 보상을 더 중요시합니다.
감가율은 에이전트의 목표와 태스크의 특성에 따라 적절히 선택되어야 합니다.

에피소드(Episode) VS 연속 태스크(Continuing Task)

에피소드는 시작과 끝이 있는 태스크이며, 연속 태스크는 끝이 정해져 있지 않은 태스크입니다.
에피소드는 한정된 시간 동안 일어나는 일련의 상호작용을 포함하는 반면, 연속 태스크는 시간 제한 없이 지속됩니다.
에피소드 태스크의 예로는 보드 게임이나 비디오 게임의 각 레벨이 있고, 연속 태스크의 예로는 주식 시장에서의 트레이딩이나 자율 주행 자동차의 운행이 있습니다.

Previous: 강화학습의 역사
Next: 강화학습의 적용 분야 예시