선형 회귀 (Linear Regression) 은
입력과 출력 간의 선형(Linear) 관계를 분석 및 학습할 때 많이 활용되며,
아래의 식으로 표현된다.
Y = W*X + B
독립변수 X들로 종속변수 Y를 얼마나 잘 설명할 수 있는지를 수치로 나타낸 것이
결정계수 (R-squared) 값이다.
그 값은 아래와 같이 나타난다.
위의 수식을 해석해보면,
전체 분산 중 종속변수 X에 의해 설명되는 분산의 분산의 비율이라고 생각할 수 있다.
R^2가 1에 가까울수록, X가 Y를 아주 잘 설명하고 있다는 뜻이 된다.
즉, 선형(linear) 관계에 가깝다고 볼 수 있다.
반대로 R^2가 0에 가까울수록, X는 Y를 설명하는 데에 거의 도움에 되지 않는다고 생각할 수 있다.
즉, X와 Y는 별 관계가 없다고 볼 수 있다.
하지만 결정계수 (R-squared) 값이 X와 Y의 관계를 나타내는 절대적인 지표는 아니다.
아래와 같이, 어떤 모델에 새로운 변수 X(k)를 추가할수록 결정계수 값은 커지는 경향을 보인다.
이렇게 독립변수 X가 여러개라면,
결정계수(R-squared) 값은 좋은 지표가 되지 못할 수 있다.
이런 경우, 수정된 결정계수 (Adjusted R-squared) 값을 구하는 것이 좋다.
이 값은 독립변수의 개수에 따라 결정계수 값에 보정을 해준다.
또한 아래 그림과 같이,
높은 R^2 값이 반드시 선형 관계를 보장하지는 않는다.
따라서 R-squared 값이 정말 유의미한 결과인지 확인하는
통계적 검증이 필요하다.
대표적인 것이 아래 그림에 나타나는 F-statistics 이다.
F 값은 선형 관계식에 의해 설명된(explained) 분산을,
설명되지 않은(not explained) 분산으로 나눈 값이다.
(여기서 자유도(degree of freedom)가 등장하는데,
자유도는 따로 공부가 필요할 것 같다.)
F 값을 계산해서 p-value를 구한 다음,
p-value 값이 충분히 낮다면
해당 결정계수(R-squared) 값이 유의미하다고 볼 수 있다.
◎ References
< StatQuest, Linear Regression, Clearly Explained!!! >
< DataLabbit, [회귀분석] ANOVA(분산분석)를 이용한 회귀분석 접근 (1) - 제곱합(Sum of Squares) >
'Data Science' 카테고리의 다른 글
Gradient Boosting (그래디언트 부스팅) for classification (0) | 2023.05.03 |
---|---|
Probability and Likelihood (0) | 2023.05.01 |
p-value & p-hacking (0) | 2023.04.28 |
Gradient Boosting (그래디언트 부스팅) for regression (0) | 2023.04.28 |
Conditional Entropy (0) | 2023.04.27 |