본문 바로가기

{Programing}/{AI}9

벌 수 있을까? 강화학습으로 주식 자동 투자 해보기 - EP.0 금융지식이라고는 예적금 정도만 알고 있는 나는 돈을 많이 버는 방법을 찾고 싶었다. 육신으로 벌기에는 한계가 있으므로 여러 방법을 강구하려고 한다. 인간의 지고한 목표인 "덜 일하고 많이 벌기"를 하고싶은 마음에 검색에 검색을 거듭한 결과, 내가 가지고 있는 프로그래밍 능력을 이용하여 "덜 일하고 많이 벌기"를 할 수 있을지도 모르는 방법을 시도해보려고 한다. 처음으로는 알고리즘을 활용한 자동 매매 시스템을 구현해서 모의투자를 시도해보고 이후 강화학습을 이용한 자동 매매 시스템을 구현한뒤 모의투자를 진행한 결과를 비교해 실제 투자에 어떤게 나을지 확인해볼것이다. 대략적인 흐름은 다음대로 진행하려 한다. 1. 주식과 시장에 관련된 요소와 투자 방법에 대한 학습 및 정리. 2. 투자를 위한 조건 알고리즘 설.. 2023. 2. 4.
Fundamental of Reinforcement Learning 공부 정리!!(5) MDP의 value funtion 사이의 연관성을 나타내는 식. Bellman Equation. Bellman Expectation Equation 앞서 보았듯이 value function은 크게 policy, action value function으로 나타난다. 일반적인 value function 부터 policy, action function을 Return의 정의에 따라서 풀어쓰고 discount ratio로 묶으면 bellman equation 이라고 부른다. 이렇게 expectation으로 표현하는 것은 좀 이해하기 힘들수도 있으니 다른 방식으로 표현해보자. 현재 state 의 value function과 다음 state의 value function의 상관관계의 식을 구하려면 state-actio.. 2017. 11. 5.
Fundamental of Reinforcement Learning 공부 정리!!(4) Value Function State value function 여기서의 감마는 Discount Factor 값.감마 값은 할인 인자 0~1사이 값. 미래 보상의 현재가치를 나타냄. 0에 가까우면 근시적인 평가. 1에 가까우면 원시적인 평가. Return : 한 episode 안에 agent가 행한 action의 할인된 reward의 총 합. return의 expectation이 State value function. 아래와 같이 표현. MRP의 State value function은 시작된 어떤 상태 s 의 기대 가치이다. agent가 다음 state로 가기위해서는 다음 stage들의 가치를 보고 높은 가치를 가진 state로 이동한다.그렇기 때문에 value function이 상당히 중요해지고 효율적.. 2017. 10. 14.
Fundamental of Reinforcement Learning 공부 정리!!(3) MDP(Markov Decision Process) 란? 앞서 보았던 MP의 심화형으로 Markov Reward Process 에 Decision을 추가한 것으로 MP가 이전 상태에만 영향을 받았다면 MDP는 이전 상태와 취한 행동에 영항을 받고 그에 대한 보상이 있는 것이다. State Agent가 인식하는 자신의 상태. 사람의 경우 오감으로 인식하는 모든 상태가 될수 있고,Atari게임에서는 게임화면 그자체의 pixel값이 된다.즉, 어떠한 문제에 대한 상태는 정의 하기 나름이다. 같은 문제라도 다른 ML 알고리즘을 적용하면 더 나은 결과를 가져오는 문제가 있을수 있으므로 잘 비교해보고 선택해야한다. 강화학습은 이전에도 설명했지만 '시간'의 개념이 적용된 문제를 푸는데 사용하는 ML기법이므로 강화학습.. 2017. 9. 25.