컴공돌이의 스터디 블로그

[시즌1].Lecture 02 - Linear Regression의 개념 본문

강의 Study/모두를 위한 머신러닝과 딥러닝 강의

[시즌1].Lecture 02 - Linear Regression의 개념

제갈초아 2018. 1. 31. 12:00

* 이 글은 홍콩과기대 김성훈 교수님의 무료 동영상 강좌 "모두를 위한 머신러닝과 딥러닝 강의"를 보고 요점을 정리한 글 입니다.


Linear Regression(선형 회귀)



  Regression(회귀) Machine Learning(머신 러닝)에서도 Training Data Set을 사용하는 Supervised Learning(지도 학습)의 한 종류입니다.


  학생이 공부한 시간 x를 입력하여 학생의 시험 점수 y를 예측하는 것도 Regression이라고 할 수 있습니다. 그리고 이것을 좀더 세부적으로 살펴본자면 학생이 공부한 시간 x가 크면 클수록 학생의 시험 성적 y가 높은 경우가 많기 때문에 이것은 Linear(직선적) 성질을 갖는 Linear Regression(선형 회귀)이라고 분류할 수 있습니다. 

  즉, Linear Regression이란 Regression 중에서도 데이터들이 직선적 관계에 있다는 Linear한 특성을 지닌 Regression이라고 할 수 있습니다.




  위의 경우 이외에도 수많은 현상들이 Linear한 성질을 가지고 있기 때문에 Linear Regression은 간단하지만 중요하다고 할 수 있습니다.



Hypothesis(가설)



  Linear Regression에서 학습하기 전에 먼저 Hypothesis(가설)을 세울 필요가 있습니다. 여기서 Hypothesis 데이터를 표현하는 방정식을 의미하는데, Linear Regression은 직선적 관계를 가지고 있기 때문에 우리가 알고있는 1차 방정식 형태인  으로 표현할 수 있습니다.







Cost Function(비용 함수)



  Hypothesis는 입력값 x에서의 예측한 값 H(x)와 실제 값 y간의 거리들을 모두 합한 값이 작으면 작을 수록 좋습니다. 이런 거리 값들을 계산할때 사용하는 함수가 Cost Function(비용 함수)이고 Loss Function(손실 함수)이라고 부르기도 합니다.


  Cost Function을 계산할 때 입력값 x에서의 예측한 값 H(x)와 실제 값 y간의 거리들을 모두 합해야 하는데 실질적으로 Cost Function 공식에서 사용되는 거리의 값은  가 아닌 제곱값인 를 사용합니다. 이것은  음수 값이 나올수 있는 가능성을 없애고 거리들의 합이 큰 가설에게 더 큰 페널티를 주어 빠르게 좋은 가설을 찾기 위해서 사용하는 것 입니다.


  Cost Function은 모든 x 값들에서의 거리를 모두 계산해야 하므로 로 표현할 수 있습니다. 이 공식에 를 대입해 보면 Cost Function은 실질적으로는 W 와 b를 변수로 갖는 함수 라는 것을 확인할 수 있습니다.



* Summary *

1. Linear Regression(선형 회귀)은 Regression(회귀) 중에서도 데이터들이 직선적 관계에 있다는 Linear한 특성을 지닌 Regression이다.

2. Hypothesis(가설)은 데이터를 표현하는 방정식을 의미하고 Linear Regression(선형 회귀)에서는   로 사용한다.

3. Cost Function(비용 함수)는 좋은 Hypothesis(가설)을 고르기 위하여 예측 값 와 실제 값  사이의 거리들의 합을 구하는 함수이다.

4. Cost Function(비용 함수)는 Loss Function(손실 함수)와 같은 의미이다.

5. Cost Function(비용 함수)를 계산할 때 가 아닌  를 사용하는 이유는 음수 값이 나올 가능성이 있고 거리들의 합이 큰 경우 더 많은 페널티를 주기 위해서 이다.

6. 에  를 대입해 보면 Cost Function은 실직적으로 W와 b를 변수로 갖는 함수 라는 것을 알 수 있다.

반응형
Comments