본문 바로가기
{Programing}/{AI}

Fundamental of Reinforcement Learning 공부 정리!!(2)

by 탱타로케이 2017. 9. 25.

Markov Decision Process

마르코프 결정 프로세스 를 알아보기전에 


Markov Process부터 알아보자.


Markov Chain이라고도 부른다.

이산 확률 프로세스(Discrete Stochastic Process) 이란다.


더 쪼개보면 확률 프로세스(Stochastic Process)란 


'확률 분포를 가진 랜덤 변수가 일정한 시간간격으로 값을 발생시키는 문제를 모델링 하는것' 이란다.


이런 모델중에 현재상태가 바로 이전 상태의 영향만을 받는 확률 프로세스를 MP라고 한다.


MP모델은 2가지 속성으로 표현 가능하다.

X : 유한한 상태공간(state space)의 집합

P : 전이 확률(transition probability). 모든 상태(state) X 사이의 전이 확률을 의미.


MP(X,P)

라고 표기한다.


스텝(step)

 상태의 전이는 이산 시간(Discrete time)에 이루어지고, 상태 집합X의 어떤 임의의 상태에 머무를 때의 시간.

 

현재 스텝이 n이면 다음 스텝은 n+1로 표현.


이때의 상태 전이 확률값을 식으로 나타내면.


pij : 상태 i 에서 j로 전이될 확률 값.

Xn : 스텝 n 에서 머물러 있는 상태(state). 정확히는 해당 상태에 대한 랜덤변수를 의미.



중요한 점 : 이전 상태에 대한 영향없이 상태 i에서 상태 j로의 전이 확률은 언제나 동일. 무기억성 속성.

다음 수식으로 나타냄.

이러한 속성을 마르코프 속성(Markov Property)라고 부른다.

전이 확률은 다음과 같다.



이러한 MP를 그래프로 표현하는 방식은

상태 X는 원으로 나타내고, 전이 확률 P 는 화살표로 표현한다.



댓글