본문 바로가기

Data Science

Central Limit Theorem (중심극한정리)

MGF (적률생성함수, Moment Generating Function)

 

적률(Moment)은 아래와 같이 정의된다.

 

 

 

적률생성함수(MGF)는 아래와 같이 계산된다.

 

적률생성함수

 

 

MGF 식을 살펴보면, 아래의 테일러 급수가 활용되는 것을 알 수 있다.

 

Taylor Series

 

 

아래와 같이 MGF 식을 t에 대해 n번 미분하고 t=0 을 대입하면,

n차 적률을 구할 수 있다.

 

n차 적률 = MGF를 t에 대해 n번 미분 후 t=0 대입

 

 

 


 CLT (중심극한정리, Central Limit Theorem)

 

정규분포(Normal Distribution)의 MGF

 

정규분포를 따르는 확률변수 X의 MGF는 아래와 같이 구해진다.

 

<수식 1-1>

 

<수식 1-1>의 마지막 식에서, e의 지수인 [ tx - {(x-u)^2 / 2(sigma^2)} ] 는 아래와 같이 정리할 수 있다.

 

<정리 1>

 

위의 <정리 1>에서 정리된 값을 <수식 1-1> 에 대입해서 이어서 계산하면,

아래와 같은 결과를 얻을 수 있다.

 

<수식 1-2>

 

즉, 정규분포를 따르는 확률변수의 MGF 수식은, <수식 1-2>의 마지막 식처럼 아래와 같다.

 

정규분포의 MGF

 

 

 


임의의 확률분포를 따르는 X의 표본평균 X_bar의 MGF

 

임의의 확률분포를 따르는 X의 표본평균 X_bar의 MGF는 아래와 같이 구할 수 있다.

 

<수식 2-1>

 

<수식 2-1>의 마지막 식의 E() 부분은, 아래와 같이 정리할 수 있다.

 

<정리 2>

 

위의 <정리 2>의 결과를 바탕으로, <수식 2-1>을 이어서 변형해보면 아래와 같다.

 

<수식 2-2>

 

위의 <수식 2-2>의 결과로 나타난 MGF 식에서, n을 무한대로 발산시키면 아래와 같이 변형된다.

(n을 무한대로 발산시킨다는 것은, 표본의 크기를 무한대로 늘린다는 의미와 같다.)

 

<수식 2-3>

 

<수식 2-3>의 마지막 식에서 확인할 수 있듯이,

임의의 확률분포를 따르는 확률변수 X의 표본평균의 MGF 식은 아래와 같다.

 

표본평균의 MGF

 

 

 


중심극한정리 의미

 

정규분포를 따르는 확률변수 Y 가 있을 때, Y의 MGF는 아래와 같다.

 

정규분포의 MGF

 

임의의 확률분포를 따르는 확률변수 X가 있을 때, X의 표본평균의 MGF는 아래와 같다.

 

표본평균의 MGF

 

정규분포의 MGF와 표본평균의 MGF를 비교해보면,

분산이 모분산과 표본분산임을 제외하면, 사실상 같은 수식임을 알 수 있다.

그리고 중간에 n을 무한대로 보냈기 때문에, 모분산 = 표본분산이라고 볼 수 있다.

 

즉, 정규분포의 MGF = 표본평균의 MGF 이다.

 

표본평균의 MGF = 정규분포의 MGF

 

두 확률변수의 MGF가 같다면, 두 확률변수의 확률분포는 같다.

 

따라서, 어떤 모양의 확률분포이든 상관없이

임의의 확률분포를 따르는 확률변수 X의 표본평균은 정규분포를 따른다.

 

위의 수식을 보면, "n이 무한대 발산할 때" [n → ∞] 라는 조건이 붙어있다.

(즉, 표본의 크기가 무한대로 클 때)

 

하지만 일반적으로 "n이 30 이상" [n ≥ 30] 이면,

정규분포를 따른다고 가정하는 경우가 많다.

 

 

 


 

◎ References

 

< 손으로 푸는 통계 >

- [Statistics by hand] 10. Taylor series (Material # 1 for proof of center theorem)

- [Statistics by hand] 11. Probability Generation Function (Material # 2 for Proof of Central Theorem)

- [Statistics by hand] 12. Proof of Central Limit Theorem (# 1. Condition of equal pdf)

- [Statistics by hand] 13. Proof of Central Limit Theorem (# 2. MGF of Normal Distribution)

- [Statistics by hand] 14. Proof of Central Limit Theorem (# 3. MGF of sample mean)

 

'Data Science' 카테고리의 다른 글

TF-IDF  (0) 2023.10.02
텍스트 데이터 전처리 (Text Preprocessing)  (0) 2023.10.02
Mean Squared Error (MSE)  (0) 2023.06.16
Mutual Information  (0) 2023.06.13
Kullback-Leibler Divergence  (0) 2023.06.10