본문 바로가기

{Programing}/{AI}9

Fundamental of Reinforcement Learning 공부 정리!!(2) Markov Decision Process마르코프 결정 프로세스 를 알아보기전에 Markov Process부터 알아보자. Markov Chain이라고도 부른다.이산 확률 프로세스(Discrete Stochastic Process) 이란다. 더 쪼개보면 확률 프로세스(Stochastic Process)란 '확률 분포를 가진 랜덤 변수가 일정한 시간간격으로 값을 발생시키는 문제를 모델링 하는것' 이란다. 이런 모델중에 현재상태가 바로 이전 상태의 영향만을 받는 확률 프로세스를 MP라고 한다. MP모델은 2가지 속성으로 표현 가능하다.X : 유한한 상태공간(state space)의 집합P : 전이 확률(transition probability). 모든 상태(state) X 사이의 전이 확률을 의미. MP(X,.. 2017. 9. 25.
Fundamental of Reinforcement Learning 공부 정리!!(1) 강화학습 : 에이전트(Agent)가 환경(Environment)의 현재 상태(Current State)를 인식해 취한 행동(Action)의 결과를 보상(Reward)으로 학습하는 것. 특징 1 : Trial and Error : 실행하지 않고 예측하는것이 아닌 직접 실행하며 얻는 결과로부터 학습함.특징 2 : Delayed Reward : 강화학습은 기본적으로 '시간의 순서'를 가진 문제를 해결하기 때문에 행동의 결과가 나타나기까지 시간간격이 벌어질수 있다. 이 특징은 강화학습의 중요한 문제이므로 꼭 체크해보자. 강화학습의 요소 : 에이전트(Agent), 상태(State), 행동(Action), 포상(Reward), 정책(Policy) 강화학습의 출발. Trial and ErrorOptimal contr.. 2017. 9. 25.
딥러닝 실습 1. Python 기본 문법 출력 함수print("string.") 연산자연산자 기능 + 덧셈 - 뺄셈 * 곱셈 / 나눗셈 // 몫 % 나머지 ** 제곱 변수자료형을 명시하지 않는다. 이름 규칙 : 숫자로 시작하면 안된다.대소문자는 구별된다.한글 사용가능 사전에 정의된 변수명은 사용불가False, None, True, and, as, assert, break, class, continue, def, del, elif, else, except, finally, for, from, global, if, import, in, is, lambda, nonlocal, not, or, pass, raise, return, try, while, with, yield 자료형정수, 실수, 복소수(단위 : j ), 문자열, 리스트, 튜플, 사전 이스.. 2017. 3. 2.
딥러닝 실습 0. Python 설치. 참고서적 : 밑바닥부터 시작하는 딥러닝, 한빛미디어, 사이토 고키 먼저 Python 3.x 버젼을 설치할것이다. Anaconda 배포판을 설치하면 딥러닝 구현에 도움되는 넘파이 라이브러리와 matplotlib 라이브러리도 같이 설치된다. https://www.continuum.io/downloads 2017. 3. 2.