공분산 (Covariance)
수식이 분산(Variance)과 상당히 닮아있다.
자기 자신과의 공분산을 구하면, 그게 곧 분산이다.
모집단(population)에 대한 정보를 알고있다면, N으로 나누지만
표본집단(sample)이라면, N-1로 나눈다.
Cov(X, Y)는,
X가 증가할 때 Y도 증가하는 경향이면 양수(positive)
X가 증가할 때 Y는 감소하는 경향이면 음수(negative)
값을 가진다.
Cov(X, Y) ≒ 0 이라면,
두 변수 X, Y 간에 뚜렷한 선형 관계(linear relationship)가
나타나지 않는다고 볼 수 있다.
Covariance의 절대값 크기는 큰 의미를 갖지 못하는데,
이는 data의 scale에 따라 값이 크게 변하는 등
선형 관계의 정도를 객관적으로 수치화하지 못하기 때문이다.
즉 공분산(Convariance)은, 그저 경향성 정도만을 파악할 수 있다.
다만 이 공분산을 토대로 다른 많은 수치들을 계산할 수 있는데,
그 중 하나가 X, Y 간의 상관관계를 나타내는 Correlation이다.
또한 PCA에서도 활용되는 핵심적인 개념이다.
◎ References
< StatQuest, Covariance, Clearly Explained!!! >
'Data Science' 카테고리의 다른 글
Backpropagation (0) | 2023.05.23 |
---|---|
Pearson's Correlation (0) | 2023.05.19 |
SVM (Support Vector Machine) (0) | 2023.05.17 |
CatBoost (0) | 2023.05.13 |
XGBoost for classification (0) | 2023.05.06 |