MGF (적률생성함수, Moment Generating Function)
적률(Moment)은 아래와 같이 정의된다.
적률생성함수(MGF)는 아래와 같이 계산된다.
MGF 식을 살펴보면, 아래의 테일러 급수가 활용되는 것을 알 수 있다.
아래와 같이 MGF 식을 t에 대해 n번 미분하고 t=0 을 대입하면,
n차 적률을 구할 수 있다.
CLT (중심극한정리, Central Limit Theorem)
정규분포(Normal Distribution)의 MGF
정규분포를 따르는 확률변수 X의 MGF는 아래와 같이 구해진다.
<수식 1-1>의 마지막 식에서, e의 지수인 [ tx - {(x-u)^2 / 2(sigma^2)} ] 는 아래와 같이 정리할 수 있다.
위의 <정리 1>에서 정리된 값을 <수식 1-1> 에 대입해서 이어서 계산하면,
아래와 같은 결과를 얻을 수 있다.
즉, 정규분포를 따르는 확률변수의 MGF 수식은, <수식 1-2>의 마지막 식처럼 아래와 같다.
임의의 확률분포를 따르는 X의 표본평균 X_bar의 MGF
임의의 확률분포를 따르는 X의 표본평균 X_bar의 MGF는 아래와 같이 구할 수 있다.
<수식 2-1>의 마지막 식의 E() 부분은, 아래와 같이 정리할 수 있다.
위의 <정리 2>의 결과를 바탕으로, <수식 2-1>을 이어서 변형해보면 아래와 같다.
위의 <수식 2-2>의 결과로 나타난 MGF 식에서, n을 무한대로 발산시키면 아래와 같이 변형된다.
(n을 무한대로 발산시킨다는 것은, 표본의 크기를 무한대로 늘린다는 의미와 같다.)
<수식 2-3>의 마지막 식에서 확인할 수 있듯이,
임의의 확률분포를 따르는 확률변수 X의 표본평균의 MGF 식은 아래와 같다.
중심극한정리 의미
정규분포를 따르는 확률변수 Y 가 있을 때, Y의 MGF는 아래와 같다.
임의의 확률분포를 따르는 확률변수 X가 있을 때, X의 표본평균의 MGF는 아래와 같다.
정규분포의 MGF와 표본평균의 MGF를 비교해보면,
분산이 모분산과 표본분산임을 제외하면, 사실상 같은 수식임을 알 수 있다.
그리고 중간에 n을 무한대로 보냈기 때문에, 모분산 = 표본분산이라고 볼 수 있다.
즉, 정규분포의 MGF = 표본평균의 MGF 이다.
두 확률변수의 MGF가 같다면, 두 확률변수의 확률분포는 같다.
따라서, 어떤 모양의 확률분포이든 상관없이
임의의 확률분포를 따르는 확률변수 X의 표본평균은 정규분포를 따른다.
위의 수식을 보면, "n이 무한대 발산할 때" [n → ∞] 라는 조건이 붙어있다.
(즉, 표본의 크기가 무한대로 클 때)
하지만 일반적으로 "n이 30 이상" [n ≥ 30] 이면,
정규분포를 따른다고 가정하는 경우가 많다.
◎ References
< 손으로 푸는 통계 >
- [Statistics by hand] 10. Taylor series (Material # 1 for proof of center theorem)
- [Statistics by hand] 12. Proof of Central Limit Theorem (# 1. Condition of equal pdf)
- [Statistics by hand] 13. Proof of Central Limit Theorem (# 2. MGF of Normal Distribution)
- [Statistics by hand] 14. Proof of Central Limit Theorem (# 3. MGF of sample mean)
'Data Science' 카테고리의 다른 글
TF-IDF (0) | 2023.10.02 |
---|---|
텍스트 데이터 전처리 (Text Preprocessing) (0) | 2023.10.02 |
Mean Squared Error (MSE) (0) | 2023.06.16 |
Mutual Information (0) | 2023.06.13 |
Kullback-Leibler Divergence (0) | 2023.06.10 |