본문 바로가기

Data Science

Linear Regression

선형 회귀 (Linear Regression) 은

입력과 출력 간의 선형(Linear) 관계를 분석 및 학습할 때 많이 활용되며,

아래의 식으로 표현된다.

Y = W*X + B

 

 


 

 

독립변수 X들로 종속변수 Y를 얼마나 잘 설명할 수 있는지를 수치로 나타낸 것이

결정계수 (R-squared) 값이다.

그 값은 아래와 같이 나타난다.

 

R-squared

 

위의 수식을 해석해보면,

전체 분산 중 종속변수 X에 의해 설명되는 분산의 분산의 비율이라고 생각할 수 있다.

 

R-squared의 직관적 의미

 

R^2가 1에 가까울수록, X가 Y를 아주 잘 설명하고 있다는 뜻이 된다.

즉, 선형(linear) 관계에 가깝다고 볼 수 있다.

 

반대로 R^2가 0에 가까울수록, X는 Y를 설명하는 데에 거의 도움에 되지 않는다고 생각할 수 있다.

즉, X와 Y는 별 관계가 없다고 볼 수 있다.

 

 


 

 

하지만 결정계수 (R-squared) 값이 X와 Y의 관계를 나타내는 절대적인 지표는 아니다.

아래와 같이, 어떤 모델에 새로운 변수 X(k)를 추가할수록 결정계수 값은 커지는 경향을 보인다.

 

변수를 더 추가할수록 R-squared 값이 커진다.

 

이렇게 독립변수 X가 여러개라면,

결정계수(R-squared) 값은 좋은 지표가 되지 못할 수 있다.

 

이런 경우, 수정된 결정계수 (Adjusted R-squared) 값을 구하는 것이 좋다.

이 값은 독립변수의 개수에 따라 결정계수 값에 보정을 해준다.

 

 


 

 

또한 아래 그림과 같이,

높은 R^2 값이 반드시 선형 관계를 보장하지는 않는다.

 

높은 R-squared 값이 반드시 선형성(linearity)을 보장하는 것은 아니다.

 

 

따라서 R-squared 값이 정말 유의미한 결과인지 확인하는

통계적 검증이 필요하다.

 

대표적인 것이 아래 그림에 나타나는 F-statistics 이다.

 

F-statistics의 직관적 의미

 

F 값은 선형 관계식에 의해 설명된(explained) 분산을,

설명되지 않은(not explained) 분산으로 나눈 값이다.

 

(여기서 자유도(degree of freedom)가 등장하는데,

자유도는 따로 공부가 필요할 것 같다.)

 

F 값을 계산해서 p-value를 구한 다음,

p-value 값이 충분히 낮다면

해당 결정계수(R-squared) 값이 유의미하다고 볼 수 있다.

 

 

 


 

◎ References

 

< StatQuest, Linear Regression, Clearly Explained!!! >

 

< DataLabbit, [회귀분석] ANOVA(분산분석)를 이용한 회귀분석 접근 (1) - 제곱합(Sum of Squares) >

 

< Logistic Regression >