{Programing}131 (리눅스) - make 관련 make : 파일 관리 유틸리티파일간의 종속관계를 파악해 makefile에 적힌 내용대로 컴파일러에 명령하여, shell 명령을 순차적으로 실행한다. makefile을 통해 make 명령을 사용하는 이유 1. 파일에 대한 반복적 명령을 자동화.2. 프로그램의 종속구조를 파악하기 쉽게 해주며 관리가 용이해짐.3. 단순 반복작업의 재작성을 최소화한다. 기본적인 리눅스의 빌드방식. 1. gcc -c -o xxx.o xxx.c 명령어를 통해 컴파일해 object파일로 만든다.2. gcc -o app.out xxx.o yyy.o 명령어를 통해 묶을 object파일을 링크해 실행파일(.out)으로 만든다. Makefile이 제공하는 강력한 기능 중 하나인 Incremental build 반복적인 빌드 과정에서 변경.. 2017. 10. 9. Fundamental of Reinforcement Learning 공부 정리!!(3) MDP(Markov Decision Process) 란? 앞서 보았던 MP의 심화형으로 Markov Reward Process 에 Decision을 추가한 것으로 MP가 이전 상태에만 영향을 받았다면 MDP는 이전 상태와 취한 행동에 영항을 받고 그에 대한 보상이 있는 것이다. State Agent가 인식하는 자신의 상태. 사람의 경우 오감으로 인식하는 모든 상태가 될수 있고,Atari게임에서는 게임화면 그자체의 pixel값이 된다.즉, 어떠한 문제에 대한 상태는 정의 하기 나름이다. 같은 문제라도 다른 ML 알고리즘을 적용하면 더 나은 결과를 가져오는 문제가 있을수 있으므로 잘 비교해보고 선택해야한다. 강화학습은 이전에도 설명했지만 '시간'의 개념이 적용된 문제를 푸는데 사용하는 ML기법이므로 강화학습.. 2017. 9. 25. Fundamental of Reinforcement Learning 공부 정리!!(2) Markov Decision Process마르코프 결정 프로세스 를 알아보기전에 Markov Process부터 알아보자. Markov Chain이라고도 부른다.이산 확률 프로세스(Discrete Stochastic Process) 이란다. 더 쪼개보면 확률 프로세스(Stochastic Process)란 '확률 분포를 가진 랜덤 변수가 일정한 시간간격으로 값을 발생시키는 문제를 모델링 하는것' 이란다. 이런 모델중에 현재상태가 바로 이전 상태의 영향만을 받는 확률 프로세스를 MP라고 한다. MP모델은 2가지 속성으로 표현 가능하다.X : 유한한 상태공간(state space)의 집합P : 전이 확률(transition probability). 모든 상태(state) X 사이의 전이 확률을 의미. MP(X,.. 2017. 9. 25. Fundamental of Reinforcement Learning 공부 정리!!(1) 강화학습 : 에이전트(Agent)가 환경(Environment)의 현재 상태(Current State)를 인식해 취한 행동(Action)의 결과를 보상(Reward)으로 학습하는 것. 특징 1 : Trial and Error : 실행하지 않고 예측하는것이 아닌 직접 실행하며 얻는 결과로부터 학습함.특징 2 : Delayed Reward : 강화학습은 기본적으로 '시간의 순서'를 가진 문제를 해결하기 때문에 행동의 결과가 나타나기까지 시간간격이 벌어질수 있다. 이 특징은 강화학습의 중요한 문제이므로 꼭 체크해보자. 강화학습의 요소 : 에이전트(Agent), 상태(State), 행동(Action), 포상(Reward), 정책(Policy) 강화학습의 출발. Trial and ErrorOptimal contr.. 2017. 9. 25. 이전 1 ··· 26 27 28 29 30 31 32 33 다음