일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- CNN
- 비용 함수
- Q-Learning
- csv
- convolutional neural network
- regression
- 선형 회귀
- reinforcement learning
- iris
- Sigmoid Function
- 논리 회귀
- Logistic
- RL
- 회귀
- 기울기 감소 알고리즘
- Kaggle
- 정리
- Neural network
- 시그모이드 함수
- Logistic regression
- Deep learning
- 요약
- cost function
- sklearn
- 합성곱 신경망
- 딥 러닝
- machine learning
- data
- Gradient descent algorithm
- 강화학습
- Today
- Total
목록강의 Study/모두를 위한 머신러닝과 딥러닝 강의 (29)
컴공돌이의 스터디 블로그
* 이 글은 홍콩과기대 김성훈 교수님의 무료 동영상 강좌 "모두를 위한 머신러닝과 딥러닝 강의"를 보고 요점을 정리한 글 입니다. DQN 대부분의 Reinforcement Learning을 적용시키는 부분은 카메라를 통해 입력받은 화면을 사용하기 때문에 Q-Table로는 표현하기가 매우 어렵습니다. 이러한 이유 때문에 Q-Table을 대체할 것을 선택하였고 대안인 Neural Network를 사용한 방법을 Q-Network라고 합니다. Q-Network의 알고리즘은 매우 훌륭하지만 실질적으로 실행시켜보면 잘 돌아가지 않습니다. 그 이유는 2가지 요인 때문인데 첫번째 요인은 Sample Data들 간의 연관성을 고려해야 한다는 점이고 두번째 요인은 예측한 값을 비교해야하는 값이 안정되어 있지 않다는 점 입..
* 이 글은 홍콩과기대 김성훈 교수님의 무료 동영상 강좌 "모두를 위한 머신러닝과 딥러닝 강의"를 보고 요점을 정리한 글 입니다. Q-Network Q-Table을 사용한 학습은 굉장히 쉽게 사용할 수 있습니다. 하지만 카메라를 통해 입력받은 화면에 대한 Q-Table은 엄청난 크기를 가지게 됩니다. Reinforcement Learning(강화 학습)을 사용할 수 있는 대부분이 이런 카메라를 통해 입력받는 화면을 사용해야 하기 때문에 Q-Table를 대신할 새로운 방법을 생각해야 했습니다. 이런 Q-Table을 대신하여 문제를 해결하기 위해서 선택된 방법이 바로 Neural Network(신경망)입니다. 이 Neural network를 사용한 Reinforcement Learning을 다른 말로 Q-N..
* 이 글은 홍콩과기대 김성훈 교수님의 무료 동영상 강좌 "모두를 위한 머신러닝과 딥러닝 강의"를 보고 요점을 정리한 글 입니다. Q-Learning in non-deterministic world Environment(환경)는 Stochastic(확률론적인)한 성질을 가지고 있다고 할 수 있습니다. 따라서 Deterministic한 모델에서처럼 모델의 출력이 매개변수 값과 초기 조건에 의해 완전히 결정되는 것이 아니라 특유의 무작위성이 있기 때문에, 동일한 설정의 매개변수 값과 초기 조건이어도 다른 출력이 발생될 수 있습니다. 따라서 을 그대로 사용하게 되면 실제로는 학습이 잘 되지 않을 수 있습니다. 예를 들어, 목표에 도달한 학습 단계에서 A1라는 Action을 선택하였지만 환경의 무작위성 때문에 ..
* 이 글은 홍콩과기대 김성훈 교수님의 무료 동영상 강좌 "모두를 위한 머신러닝과 딥러닝 강의"를 보고 요점을 정리한 글 입니다. Q-Learning Algorithm Reinforcement Learning(강화 학습)에서 Agent가 Action을 결정하는 것을 도와주는 함수를 Q-Function이라고 하고 Q-Function의 출력값을 사용해서 Action을 결정하는 것을 Q-Learning이라고 합니다. Q-Learning의 알고리즘을 수식으로 표현하면 아래와 같습니다. 하지만 위의 수식을 그대로 사용해서 학습을 하게될 경우, 한번 목표에 도달하게된 경로로만 움직이고 새로운 길을 학습하지 않는다는 문제점이 발생하게 됩니다. 이러한 문제점을 해결하기 위해서는 몇 가지 방법을 사용할 수 있습니다. 그..
* 이 글은 홍콩과기대 김성훈 교수님의 무료 동영상 강좌 "모두를 위한 머신러닝과 딥러닝 강의"를 보고 요점을 정리한 글 입니다. Q-Learning Reinforcement Learning(강화 학습)에서 Agent는 현재 State에서 Action을 취하기 전까지 다른 State에 대한 정보를 알지 못합니다 또한 Goal에 도달하기 전까지는 Reward가 0이기 때문에 Action이 좋은지 나쁜지 알 수 없습니다. 따라서 어떠한 Action을 취할지 결정하는 것은 매우 중요하다고 할 수 있습니다. 이러한 상황에서 Agent가 Action을 결정하는 것을 도와주는 함수를 Q-Function이라고 하고 다른말로는 State-Action Value Function이라고도 합니다. 이 함수는 현재의 Stat..
* 이 글은 홍콩과기대 김성훈 교수님의 무료 동영상 강좌 "모두를 위한 머신러닝과 딥러닝 강의"를 보고 요점을 정리한 글 입니다. OpenAI GYM Reinforcement Learning(강화 학습)은 Agent와 Environment(환경)로 구성되어 있습니다. Agent가 어떠한 Action(행동)을 하게 되면 그것에 따른 Environment에서의 State(상태)와 Reward(보상)에 대한 정보를 받게 되고 이것을 통하여 학습을 하는 것이 Reinforcement Learning인데, 여기서 Environment를 전부 구현하는 것은 매우 어렵습니다. 이런 구현하기 어려운 Environment가 미리 구현되어져 있고 이것을 라이브러리를 통해 쉽게 사용할 수 있게 제공하는 것이 OpenAI G..
* 이 글은 홍콩과기대 김성훈 교수님의 무료 동영상 강좌 "모두를 위한 머신러닝과 딥러닝 강의"를 보고 요점을 정리한 글 입니다. Reinforcement Learning(RL, 강화 학습) Reinforcement Learning(강화 학습)은 Deep Learning(딥 러닝)과 함께 최근 많은 주목을 받는 분야입니다. 우리는 과거의 경험으로부터 학습을 할 수 있습니다. 자라왔던 수년동안 경험했었던 칭찬과 꾸중을 통해 지금의 우리가 형성되었다고 할 수 있을것입니다. 이런 인간이 학습하는 과정을 Machine Learning(기계 학습)에 적용해볼수 없을까 해서 만들어진것이 바로 이 Reinforcement Learning 입니다. Reinforcement Learning은 Agent와 Environm..
* 이 글은 홍콩과기대 김성훈 교수님의 무료 동영상 강좌 "모두를 위한 머신러닝과 딥러닝 강의"를 보고 요점을 정리한 글 입니다. Recurrent Neural Network(RNN) 우리가 사용하는 데이터에는 Sequence Data(순차적 데이터)가 굉장히 많습니다. Sequence Data란 하나의 데이터가 아니라 음성, 문장과 같은 연속적인 데이터를 의미합니다. 기본적인 Neural Network나 Convolutional Neural Network 같은 경우에는 1개의 입력이 1개의 출력으로 반환되는 형태이기 때문에 Sequence Data 같은 Series Data를 적용하기에는 어려움이 있습니다. 이전 State의 값이 현재 State의 값에 영향을 끼치는 Sequence Data를 사용하기..
* 이 글은 홍콩과기대 김성훈 교수님의 무료 동영상 강좌 "모두를 위한 머신러닝과 딥러닝 강의"를 보고 요점을 정리한 글 입니다. LeNet-5 LeCun 교수님은 1990년에 LeNet-1을 발표하였고 이것을 조금씩 보완해서 1998년에 LeNet-5를 만들어 내었습니다. LeNet-5에서는 입력데이터의 크기를 32 x 32로 만들었고 Convolution Layer에서 사용되는 Filter의 크기를 5 x 5로 Stride는 1으로, Pooling Layer에서 사용되는 Filter의 크기를 2 x 2로 Stride는 2로 설정하였습니다. AlexNet Alex는 2012년에 AlexNet을 논문으로 발표하였습니다. AlexNet은 2개의 병렬구조인 점을 제외하면 LeNet-5와 크게 다르지는 않습니..
* 이 글은 홍콩과기대 김성훈 교수님의 무료 동영상 강좌 "모두를 위한 머신러닝과 딥러닝 강의"를 보고 요점을 정리한 글 입니다. Pooling Layer Pooling Layer에서 Pooling은 다른 말로 Sampling이라고 부를 수도 있습니다. Layer의 이름에서 알 수 있듯이 Pooling Layer에서는 여러 Depth를 가지고 있는 Feature Map의 각각의 Depth마다 Resize(Sampling)을 해준 뒤 다시 합쳐주는 작업을 하게 됩니다. Pooling Layer에서도 Convolution Layer처럼 Filter를 사용합니다. Filter의 크기와 Stride를 정해주면 그것을 사용해서 Sampling을 해주게 되는데 여기서 주로 사용되는 방법이 바로 Max Pooling..