Central Limit Theorem
이 매우 크다고 가정할 때, 서로 독립인 개의 random variable 에 대해서 로 정의하자. 각 변수는 동일한 분포를 따르고(어떤 분포인지는 중요하지 않다) fat tail를 가지지 않는, 즉 충분히 빠르게 decay한다고 가정한다. 이런 경우 의 분포는 정규분포로 근사됨을 보장해주는 정리가 central limit theorem, 중심 극한 정리이다.
위와 같이 정의한 는 개의 확률 변수 들의 산술 평균이다. 각 확률 변수들을 동일한 분포에서 랜덤하게 추출했으므로 평균과 표준편차는 모두 같을 것이고, 이를 각각 , 라고 두자. 따라서 이다. 이때 의 확률밀도함수는 다음과 같이 주어진다.
중심 극한 정리에도 다양한 버전이 있는데, 이 포스트에서 소개한 버전은 각 확률 변수들이 독립적이지만 동일한 확률 분포에서 추출되었다고 가정한 버전이다. 이때 은 클수록 좋은데, 인 상황을 가정해도 괜찮을까? 그러한 경우 는 으로 수렴하고, 결과적으로 가 무한대의 값을 가지면서 제대로 정의되지 않는다. 의 경우 는 디랙 델타 함수로 해석할 수 있으며, 이는 한 점에 모든 값들이 집중된 형태이다. 따라서 정규분포로 해석하기 위해서는 유한하지만 아주 큰 에 대해서만 논의를 진행해야 한다.
아주 큰 에 대해서 일반적으로 표본평균이라고 부르는 의 평균은 실제 가 따르는 분포의 평균과 같을 것이고, 그 표준 편차, 즉 오차의 의미를 갖는 이 양은 실제 가 갖는 deviation과 차이가 아주 작도록 줄어들 것이다. 이러한 이유 때문에 실험은 많이 반복하여서 비슷한 데이터를 많이 얻을수록 좋은 것이다.