Central Limit Theorem
$N$이 매우 크다고 가정할 때, 서로 독립인 $N$개의 random variable $X_i$에 대해서 $Y = \frac{1}{N}\sum_{i=1}^N X_i$로 정의하자. 각 변수는 동일한 분포를 따르고(어떤 분포인지는 중요하지 않다) fat tail를 가지지 않는, 즉 충분히 빠르게 decay한다고 가정한다. 이런 경우 $Y$의 분포는 정규분포로 근사됨을 보장해주는 정리가 central limit theorem, 중심 극한 정리이다.
위와 같이 정의한 $Y$는 $N$개의 확률 변수 $X_i$들의 산술 평균이다. 각 확률 변수들을 동일한 분포에서 랜덤하게 추출했으므로 평균과 표준편차는 모두 같을 것이고, 이를 각각 $\langle X \rangle$, $\sigma_X$라고 두자. 따라서 $$\langle Y \rangle = \langle X \rangle, \\ \sigma^2_Y = \frac{\sigma^2_X}{N}$$이다. 이때 $Y$의 확률밀도함수는 다음과 같이 주어진다. $$P(Y) = \frac{1}{\sqrt{2\pi} \sigma_Y} e^{- \frac{(Y - \langle Y \rangle)^2}{2 \sigma^2_Y}}$$
중심 극한 정리에도 다양한 버전이 있는데, 이 포스트에서 소개한 버전은 각 확률 변수들이 독립적이지만 동일한 확률 분포에서 추출되었다고 가정한 버전이다. 이때 $N$은 클수록 좋은데, $N \to \infty$인 상황을 가정해도 괜찮을까? 그러한 경우 $\sigma_Y$는 $0$으로 수렴하고, 결과적으로 $P(Y)$가 무한대의 값을 가지면서 제대로 정의되지 않는다. $N \to \infty$의 경우 $P(Y)$는 디랙 델타 함수로 해석할 수 있으며, 이는 한 점에 모든 값들이 집중된 형태이다. 따라서 정규분포로 해석하기 위해서는 유한하지만 아주 큰 $N$에 대해서만 논의를 진행해야 한다.
아주 큰 $N$에 대해서 일반적으로 표본평균이라고 부르는 $Y$의 평균은 실제 $X$가 따르는 분포의 평균과 같을 것이고, 그 표준 편차, 즉 오차의 의미를 갖는 이 양은 실제 $X$가 갖는 deviation과 차이가 아주 작도록 줄어들 것이다. 이러한 이유 때문에 실험은 많이 반복하여서 비슷한 데이터를 많이 얻을수록 좋은 것이다.