본문 바로가기

{Programing}131

Fundamental of Reinforcement Learning 공부 정리!!(5) MDP의 value funtion 사이의 연관성을 나타내는 식. Bellman Equation. Bellman Expectation Equation 앞서 보았듯이 value function은 크게 policy, action value function으로 나타난다. 일반적인 value function 부터 policy, action function을 Return의 정의에 따라서 풀어쓰고 discount ratio로 묶으면 bellman equation 이라고 부른다. 이렇게 expectation으로 표현하는 것은 좀 이해하기 힘들수도 있으니 다른 방식으로 표현해보자. 현재 state 의 value function과 다음 state의 value function의 상관관계의 식을 구하려면 state-actio.. 2017. 11. 5.
리눅스 쉘 스크립트 예제 분석 #! /bin/sh //쉘 스크립트의 시작.DEV="eth0" // 변수VIP="10.0.0.1 10.0.0.2" //변수 리스트. //함수.ip_add(){ //MAC 이라는 변수에 $DEV 장치의 ip에 해당하는 정보중에// 파일 첫머리 부터 :를 지우고 정규식에 해당하는 내용이 only한 것이 있으면 MAC=`ip link show $DEV | egrep -o `([0-9a-f]{2}:){5}[0-9a-f]{2}` | head -n 1 | tr -d :` //장치에 ip를 추가. ip addr add $1/24 dev $DEV //IP주소와 MAC주소를 다른서버에 통지. send_arp $1 $MAC 255.255.255.255 ffffffffffff} //함수ip_del(){//장치의 IP 주소를.. 2017. 10. 23.
리눅스 쉘 스크립트 1. 개요 확장자 .sh 로 끝나는 파일 쉘을 통해 프로그램을 만든 것으로 윈도우나 도스의 batch 파일과 비슷하지만 좀더 강력한 기능들을 가짐. 파일 내용의 시작을 #! 로 작성해야함. 기본 약속으로 #! 은 본 쉘인 #! /bin/sh 로 인식됨. 배쉬 쉘을 이용하고자 하면 #! /bin/bash 로 작성하면 됨. 2. 쉘 스크립트의 실행 스크립트의 실행권한을 확인한뒤 (ls -al : 현재 디렉토리의 파일들의 자세한 정보를 보여주는 명령어) 실행권한이 없으면 chmod -x 파일명 명령어를 통해 실행권한을 부여하고 ./파일명.sh 로 실행하면 된다. 3. 변수쉘 스크립트의 변수는 기본적으로 문자열로 인식된다. 숫자로 사용하고싶다면 `expr 변수` 으로 쓰면 된다. 양 끝을 `(숫자 1키 왼쪽)로.. 2017. 10. 23.
Fundamental of Reinforcement Learning 공부 정리!!(4) Value Function State value function 여기서의 감마는 Discount Factor 값.감마 값은 할인 인자 0~1사이 값. 미래 보상의 현재가치를 나타냄. 0에 가까우면 근시적인 평가. 1에 가까우면 원시적인 평가. Return : 한 episode 안에 agent가 행한 action의 할인된 reward의 총 합. return의 expectation이 State value function. 아래와 같이 표현. MRP의 State value function은 시작된 어떤 상태 s 의 기대 가치이다. agent가 다음 state로 가기위해서는 다음 stage들의 가치를 보고 높은 가치를 가진 state로 이동한다.그렇기 때문에 value function이 상당히 중요해지고 효율적.. 2017. 10. 14.