본문 바로가기

Data Science

Pearson's Correlation

피어슨 상관계수 (Pearson's Correlation)

 

모집단 (Population)

 

표본 (Sample)

 

표본(Sample)에서의 상관계수 수식에서 등장하는
standard scores란,
x가 X의 평균(mean)에서 얼마만큼 떨어져있는지를
Sx (표준편차, standard deviation) 의 척도로 나타낸 값이다.

 

 

먼저 상관계수 corr(X, Y)의

양수(positive)와 음수(negative)의 의미를 살펴보면,

 

1. corr(X, Y) > 0

피어슨 상관계수 값이 0보다 크다면,

이는 어떤 data point의 X 값이 X의 평균보다 크다면,

Y 값 또한 Y의 평균보다 큰 경향을 나타낸다는 뜻이다.

 

2. corr(X, Y) < 0

피어슨 상관계수 값이 0보다 작다면,

이는 어떤 data point의 X 값이 X의 평균보다 크다면,

Y 값은 Y의 평균보다 작은 경향을 나타낸다는 뜻이다.

 

 

공분산(Covariance)은 data의 scale에 따라 값이 변하지만,

피어슨 상관계수(Pearson's Correlation)는

data의 scale이 변해도 그 값이 일정하게 유지된다.

 

예를 들어, X data의 scale을 2배로 늘리면

분자(numerator)의 cov(X, Y) 값이 2배로 늘어나지만,

분모(denominator)의 std(X)값 또한 똑같이 2배로 늘어나기 때문에

scale에 관계없이 값이 일정하게 유지된다.

 

 

위의 수식을 통해 구한 상관계수 값(correlation coefficient)의 크기는,

그 값의 크기(절댓값)가 클수록

상관관계가 더 높다는 것을 의미한다.

 

 

하지만 두 변수 X, Y 간의 상관계수 값이

정말 두 변수 간애 유의미한 상관관계를 나타낸다고 판단하려면,

통계적 검증이 필요하다.

 

그 검증 방식에는

▷ t-분포 (student's t-distribution),

▷ 최소자승 회귀분석 (least squares regression analysis) 등

다양한 검증 방식이 있다.

검증 방식들에 대한 자세한 내용은 여기서 확인할 수 있다.

 

 


 

◎ References

 

< Wikipedia | Pearson correlation coefficient >

 

< StatQuest | Pearson's Correlation, Clearly Explained!!! >

 

'Data Science' 카테고리의 다른 글

Logistic Regression  (0) 2023.05.31
Backpropagation  (0) 2023.05.23
Covariance  (0) 2023.05.18
SVM (Support Vector Machine)  (0) 2023.05.17
CatBoost  (0) 2023.05.13