Probability
열역학에서는 subjective probability, 즉 Bayesian probability를 사용한다. 베이지안 확률은 동전을 던졌을 때 앞 혹은 뒷면이 나올 확률은 각각 라고 엄격한 논증 없이 주장하는 식의 확률이다.
이와 반대로 objective probability, 즉 빈도적 확률도 존재한다. 어떤 시행을 무작위적으로 한다고 했을 때 그 결과로 A라는 사이 발생할 수 있다고 하자. 이때 시행을 반복하면서 실제로 A가 일어나는 경우를 하나씩 카운트할 수 있고, A가 일어날 확률은 으로 주어진다. 이때 은 전체 시행하는 횟수이며 는 A가 일어나는 횟수이다. 이는 지극히 이론적인 논의인데, thermodynamic에서 우리는 실제로 매번 실험을 해서 system의 상태를 측정하지는 않으므로 어느 정도 주관적인 믿음을 가지고 확률을 사용하게 된다. 우리는 그저 system이 가질 수 있는 상태들의 확률을 공리화하여서 사용할 것이다.
Sample Space
Sample space, 즉 표본 공간이란 어떤 시행에서 일어날 수 있는 모든 결과값들을 모아놓은 집합을 의미한다. 보통 로 표기한다.
Discrete, Continuous Random Variable
라는 값이 주사위를 던져서 나올 수 있는 눈의 수 중 하나를 가리킨다고 하자. 그렇다면 표본 공간은 이며 는 이 중 하나의 값을 가질 것이다. 이와 같이 어떤 변수가 구간으로 주어지는 게 아닌, 값을 가질 수 있는 범위가 연속적인 게 아닌 이산적일 때, 위 예시와 같이 으로 그 개수가 한정되어 있을 때 를 discrete random variable, 이산 확률 변수라고 한다. 이와는 반대로 변수가 가질 수 있는 값이 예컨대 와 같이 주어질 때, 이때 는 continuous random variable, 연속 확률 변수라고 한다.
Properties
Theorem 1. Let and be any random events in the sample space . Then the followings hold:
(1) ,
(2) If , that is, and are mutually exclusive, then .
(3) . If or , then we sat that and are independent, or uncorrelated.
Mean
각각의 값, 혹은 구간에 대하여 확률 변수가 그 값을 가질 확률이 각각 존재할 것이고, 이제 우리는 그에 대하여 평균, 다시 말해 기댓값을 정의할 수 있다.
이산 확률 변수의 경우, 결과값이 인덱스 에 대하여 개 존재한다고 하자. 우선 각 인덱스에 대해 normalization 이 성립해야 한다. 이러한 경우 평균 이산 확률 변수 에 대해 평균 는 로 정의된다. 는 일종의 가중치라고 해석해도 좋다. 각각의 에 대해 일어날 확률이 높은 는 높은 값의 를 가질 것이고, 이에 따라 평균은 에 가까운 쪽으로 치우쳐져 계산될 것이다. Analogously, random variable에 대해 정의되는 함수 에 대해 로 정의된다.
(1)
(2)
(3)
연속 확률 변수도 유사하다. 우선 변수가 가질 수 있는 범위를 정도로 지정해 두자. 가 될 수도 있다. 이러한 범위 안에서 확률 변수의 확률이 값을 가질 수 있다. 특정한 점에서 변수가 가지는 확률은 자명하게 이다. 따라서 우리는 probability density function, 즉 확률 밀도 함수 를 정의해야 한다. 어떤 구간 에서의 연속 확률 변수의 확률은 로 주어진다. 일반적으로 정의되는 선밀도 를 생각하자. 인데, 이때 물체의 총질량은 로 주어진다. 이때 를 에, 을 에 각각 대응시키면 그 의미가 분명해진다. 우리가 어떤 지점에서 물체의 질량을 얘기하는 것이 make sense 하지 않듯이, 연속 확률 변수 또한 마찬가지이다. 만약 연속 확률 변수 를 어떤 입자가 가질 수 있는 에너지라고 얘기한다면, 의 단위는 곧 에너지의 단위이다. 그런데 전체가 확률이고, 확률은 자명하게 무차원의 양이어야 하므로 우리는 가 바로 에너지 단위의 역수를 가져야 함을 알 수 있다. 이러한 의미에서 는 확률 '밀도' 함수라고 불리는 것이다.
마찬가지로 전체 구간에 대해서 normalization 이 성립해야 하고, 평균은 로 정의된다.
(1)
(2)
(3)
Linear Transformation
어떤 random variable 로부터 와 같은 형태로 선형 변환하여 변수 를 얻을 수 있다. 이때 의 평균은 로 계산된다. 따라서 평균은 linear operation이다.
Gaussian
Continuous probability distribution의 대표적인 예로 Gaussian을 생각하자. Gaussian은 다음과 같이 정의되는 확률 밀도 함수이다. 이 함수에 대해서 continuous random variable 의 평균과 의 평균 등을 구하면 다음의 결과들이 성립한다.
(1) .
(2) .
Gaussian을 특징짓기 위해 우리가 알아야 할 값들은 와 이다. Gaussian은 어떤 점을 기준으로 좌우 대칭 모양으로 그려지는데, 그 기준이 되는 점이 바로 이다. 이 점에서 Gaussian은 최댓값을 가진다. 또한 는 대칭 모양인 Gaussian이 좌우로 얼마나 퍼져있는지, 즉 중심이자 평균을 나타내는 값인 로부터 얼마나 떨어져 있는지 나타내는 척도이다.
우선 를 신경 쓰지 않고 중심에서 얼마나 떨어져 있는지를 나타내는 척도를 유도해보자. 한 가지 생각해 볼 수 있는 방법은 이다. 변수 가 평균 로부터 떨어져 있는 거리의 평균이다. 그러나 linear transformation에서 알 수 있었듯이 이 값은 자명하게 이다. 이는 평균으로부터 Gaussian이 좌우 대칭이기 때문에 벌어지는 결과다. 그렇다면 절댓값을 씌워서 은 어떤가? 하지만 절댓값은 case에 따라 대수적인 조작을 해주어야 하기 때문에 다루기 쉽지 않다.
따라서 우리는 제곱을 해서 얻은 값인 을 계산할 것이다. 이를 계산하면 다음과 같다. 이제 위에서 계산한 을 대입하면 을 얻는다. 따라서 는 평균으로부터 각 점들이 얼마나 떨어져있는지를 나타내는 척도이며, 이 값을 variance of 라고 부른다.
Variance and Standard Deviation
Definition 1. The variance of , written as , is defined by We will call the standard deviation of .
위 정의에 의해 standard deviation, 즉 표준 편차는 의 root-mean-square로 정의됨을 알 수 있다. 만일 값이 크다면 평균으로부터 값들이 떨어져 있는 거리의 평균이 크다는 뜻이고, 이는 전체적으로 Gaussian이 양옆으로 넓게 퍼져있다는 뜻이다. Variance of 는 의 단위를, standard deviation은 의 단위를 가진다.
로 정의되는 random variable에 대해서 variance of , 즉 을 구해보자. 따라서 가 성립한다.
Independent Variables
Continuous random variables 가 independent 하고 각각 의 interval에 속한다고 하자. 이때 이 두 구간에서 두 변수의 곱의 확률은 로 주어진다. 따라서 평균값 은 다음과 같이 계산된다. 이 공식은 일반적으로 성립하지 않는다. 예컨대 일반적으로는 이다. 이는 달리 말해서 우리가 고려하는 어떠한 분포, 예컨대 Gaussian 같은, 에서 spread값을 말할 수가 있다면 variance는 이 아니게 되고, 따라서 일반적으로 위에서 우리가 보인 공식은 성립하지 않는다.
Experiemental Error
예를 들어 번의 측정을 통해 서로 independent 한 관측값 를 얻었다고 하자. 각 는 random variables로 동일한 평균 와 분산 를 가진다. 이제 라는 확률 변수를 정의하고 의 평균과 분산을 계산해 보자.
따라서 이다.
이제 의 산술 평균 를 고려하자. 즉 이다. 의 평균과 분산은 다음과 같이 계산된다. 따라서 이 성립한다. 이 말인즉슨, 측정을 많이 하면 많이 할수록 관측값들의 산술 평균의 오차 는 줄어듦을 의미한다.