반응형
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- machine learning
- CNN
- 기울기 감소 알고리즘
- 시그모이드 함수
- Logistic
- Gradient descent algorithm
- 회귀
- 딥 러닝
- 요약
- sklearn
- 강화학습
- Sigmoid Function
- Q-Learning
- 비용 함수
- Logistic regression
- regression
- Neural network
- 합성곱 신경망
- cost function
- reinforcement learning
- Deep learning
- 정리
- convolutional neural network
- 선형 회귀
- RL
- iris
- csv
- 논리 회귀
- Kaggle
- data
Archives
- Today
- Total
목록Discount Reward (1)
컴공돌이의 스터디 블로그
[시즌RL].Lecture 4 - Q-Learning exploit&exploration and discounted reward
* 이 글은 홍콩과기대 김성훈 교수님의 무료 동영상 강좌 "모두를 위한 머신러닝과 딥러닝 강의"를 보고 요점을 정리한 글 입니다. Q-Learning Algorithm Reinforcement Learning(강화 학습)에서 Agent가 Action을 결정하는 것을 도와주는 함수를 Q-Function이라고 하고 Q-Function의 출력값을 사용해서 Action을 결정하는 것을 Q-Learning이라고 합니다. Q-Learning의 알고리즘을 수식으로 표현하면 아래와 같습니다. 하지만 위의 수식을 그대로 사용해서 학습을 하게될 경우, 한번 목표에 도달하게된 경로로만 움직이고 새로운 길을 학습하지 않는다는 문제점이 발생하게 됩니다. 이러한 문제점을 해결하기 위해서는 몇 가지 방법을 사용할 수 있습니다. 그..
강의 Study/모두를 위한 머신러닝과 딥러닝 강의
2018. 3. 9. 13:34