본문 바로가기

Data Science

Covariance

공분산 (Covariance)

 

Covariance 정의

 

수식이 분산(Variance)과 상당히 닮아있다.

자기 자신과의 공분산을 구하면, 그게 곧 분산이다.

 

모집단(population)에 대한 정보를 알고있다면, N으로 나누지만

표본집단(sample)이라면, N-1로 나눈다.

 

Cov(X, Y)는,

X가 증가할 때 Y도 증가하는 경향이면 양수(positive)

X가 증가할 때 Y는 감소하는 경향이면 음수(negative)

값을 가진다.

 

Cov(X, Y) ≒ 0 이라면,

두 변수 X, Y 간에 뚜렷한 선형 관계(linear relationship)가

나타나지 않는다고 볼 수 있다.

 

Covariance의 절대값 크기는 큰 의미를 갖지 못하는데,

이는 data의 scale에 따라 값이 크게 변하는 등

선형 관계의 정도를 객관적으로 수치화하지 못하기 때문이다.

 

즉 공분산(Convariance)은, 그저 경향성 정도만을 파악할 수 있다.

 

다만 이 공분산을 토대로 다른 많은 수치들을 계산할 수 있는데,

그 중 하나가 X, Y 간의 상관관계를 나타내는 Correlation이다.

또한 PCA에서도 활용되는 핵심적인 개념이다.

 

 

 


 

◎ References

 

< StatQuest, Covariance, Clearly Explained!!! >

 

< Wikipedia, Covariance >

 

'Data Science' 카테고리의 다른 글

Backpropagation  (0) 2023.05.23
Pearson's Correlation  (0) 2023.05.19
SVM (Support Vector Machine)  (0) 2023.05.17
CatBoost  (0) 2023.05.13
XGBoost for classification  (0) 2023.05.06