Probability
열역학에서는 subjective probability, 즉 Bayesian probability를 사용한다. 베이지안 확률은 동전을 던졌을 때 앞 혹은 뒷면이 나올 확률은 각각 $\frac{1}{2}$라고 엄격한 논증 없이 주장하는 식의 확률이다.
이와 반대로 objective probability, 즉 빈도적 확률도 존재한다. 어떤 시행을 무작위적으로 한다고 했을 때 그 결과로 A라는 사이 발생할 수 있다고 하자. 이때 시행을 반복하면서 실제로 A가 일어나는 경우를 하나씩 카운트할 수 있고, A가 일어날 확률은 $P_A = \lim_{N \to \infty} \frac{N_A}{N}$으로 주어진다. 이때 $N$은 전체 시행하는 횟수이며 $N_A$는 A가 일어나는 횟수이다. 이는 지극히 이론적인 논의인데, thermodynamic에서 우리는 실제로 매번 실험을 해서 system의 상태를 측정하지는 않으므로 어느 정도 주관적인 믿음을 가지고 확률을 사용하게 된다. 우리는 그저 system이 가질 수 있는 상태들의 확률을 공리화하여서 사용할 것이다.
Sample Space
Sample space, 즉 표본 공간이란 어떤 시행에서 일어날 수 있는 모든 결과값들을 모아놓은 집합을 의미한다. 보통 $S$로 표기한다.
Discrete, Continuous Random Variable
$x$라는 값이 주사위를 던져서 나올 수 있는 눈의 수 중 하나를 가리킨다고 하자. 그렇다면 표본 공간은 $S = \{1, 2, 3, 4, 5, 6\}$이며 $x$는 이 중 하나의 값을 가질 것이다. 이와 같이 어떤 변수가 구간으로 주어지는 게 아닌, 값을 가질 수 있는 범위가 연속적인 게 아닌 이산적일 때, 위 예시와 같이 $1, 2, 3, 4, 5, 6$으로 그 개수가 한정되어 있을 때 $x$를 discrete random variable, 이산 확률 변수라고 한다. 이와는 반대로 변수가 가질 수 있는 값이 예컨대 $4 \leq x \leq 5$와 같이 주어질 때, 이때 $x$는 continuous random variable, 연속 확률 변수라고 한다.
Properties
Theorem 1. Let $A$ and $B$ be any random events in the sample space $S$. Then the followings hold:
(1) $P(A) \leq 0$, $P(A \in S) = 1$
(2) If $A \cap B = \emptyset$, that is, $A$ and $B$ are mutually exclusive, then $P(A \cup B) = P(A) + P(B)$.
(3) $P(A \cap B) = P(A) P(B | A) = P(B) P(A | B)$. If $P(B | A) = P(B)$ or $P(A | B) = P(A)$, then we sat that $A$ and $B$ are independent, or uncorrelated.
Mean
각각의 값, 혹은 구간에 대하여 확률 변수가 그 값을 가질 확률이 각각 존재할 것이고, 이제 우리는 그에 대하여 평균, 다시 말해 기댓값을 정의할 수 있다.
이산 확률 변수의 경우, 결과값이 인덱스 $i = 1, ..., N$에 대하여 $N$개 존재한다고 하자. 우선 각 인덱스에 대해 normalization $$\sum_{i=1}^N P_i = 1$$이 성립해야 한다. 이러한 경우 평균 이산 확률 변수 $x$에 대해 평균 $\langle x \rangle$는 $$\langle x \rangle = \sum_{i=1}^N x_iP(x_i)$$로 정의된다. $P(x_i)$는 일종의 가중치라고 해석해도 좋다. 각각의 $x_i$에 대해 일어날 확률이 높은 $x_i$는 높은 값의 $P(x_i)$를 가질 것이고, 이에 따라 평균은 $x_i$에 가까운 쪽으로 치우쳐져 계산될 것이다. Analogously, random variable에 대해 정의되는 함수 $f(x)$에 대해 $$\langle f(x) \rangle = \sum_{i=1}^N f(x_i) P(x_i)$$로 정의된다.
(1) $\langle x \rangle = \sum_i x_iP(x_i)$
(2) $\langle x^2 \rangle = \sum_i x^2_i P(x_i)$
(3) $\langle f(x) \rangle = \sum_i f(x_i)P(x_i)$
연속 확률 변수도 유사하다. 우선 변수가 가질 수 있는 범위를 $a \leq x \leq b$ 정도로 지정해 두자. $(- \infty, \infty)$가 될 수도 있다. 이러한 범위 안에서 확률 변수의 확률이 값을 가질 수 있다. 특정한 점에서 변수가 가지는 확률은 자명하게 $0$이다. 따라서 우리는 probability density function, 즉 확률 밀도 함수 $P(x)$를 정의해야 한다. 어떤 구간 $[x, x + dx]$에서의 연속 확률 변수의 확률은 $P(x) dx$로 주어진다. 일반적으로 정의되는 선밀도 $\lambda$를 생각하자. $\lambda = \frac{m}{L}$인데, 이때 물체의 총질량은 $\lambda \cdot L$로 주어진다. 이때 $\lambda$를 $P(x)$에, $L$을 $dx$에 각각 대응시키면 그 의미가 분명해진다. 우리가 어떤 지점에서 물체의 질량을 얘기하는 것이 make sense 하지 않듯이, 연속 확률 변수 또한 마찬가지이다. 만약 연속 확률 변수 $x$를 어떤 입자가 가질 수 있는 에너지라고 얘기한다면, $x$의 단위는 곧 에너지의 단위이다. 그런데 $P(x) dx$ 전체가 확률이고, 확률은 자명하게 무차원의 양이어야 하므로 우리는 $P(x)$가 바로 에너지 단위의 역수를 가져야 함을 알 수 있다. 이러한 의미에서 $P(x)$는 확률 '밀도' 함수라고 불리는 것이다.
마찬가지로 전체 구간에 대해서 normalization $$\int_a^b P(x) dx = 1$$이 성립해야 하고, 평균은 $$\langle x \rangle = \int_a^b x P(x) dx$$로 정의된다.
(1) $\langle x \rangle = \int xP(x) dx$
(2) $\langle x^2 \rangle = \int x^2 P(x) dx$
(3) $\langle f(x) \rangle = \int f(x)P(x) dx$
Linear Transformation
어떤 random variable $x$로부터 $y = ax+b$와 같은 형태로 선형 변환하여 변수 $y$를 얻을 수 있다. 이때 $y$의 평균은 $\langle y \rangle = \langle ax + b \rangle = a\langle x \rangle + b$로 계산된다. 따라서 평균은 linear operation이다.
Gaussian
Continuous probability distribution의 대표적인 예로 Gaussian을 생각하자. Gaussian은 다음과 같이 정의되는 확률 밀도 함수이다. $$P(x) = \frac{1}{\sqrt{2 \pi} \sigma} \exp(-\frac{(x - x_0)^2}{2\sigma^2})$$ 이 함수에 대해서 continuous random variable $x$의 평균과 $x^2$의 평균 등을 구하면 다음의 결과들이 성립한다.
(1) $\langle x \rangle = x_0$.
(2) $\langle x^2 \rangle = \sigma^2 + x^2_0$.
Gaussian을 특징짓기 위해 우리가 알아야 할 값들은 $x_0$와 $\sigma$이다. Gaussian은 어떤 점을 기준으로 좌우 대칭 모양으로 그려지는데, 그 기준이 되는 점이 바로 $x_0$이다. 이 점에서 Gaussian은 최댓값을 가진다. 또한 $\sigma$는 대칭 모양인 Gaussian이 좌우로 얼마나 퍼져있는지, 즉 중심이자 평균을 나타내는 값인 $x_0$로부터 얼마나 떨어져 있는지 나타내는 척도이다.
우선 $\sigma$를 신경 쓰지 않고 중심에서 얼마나 떨어져 있는지를 나타내는 척도를 유도해보자. 한 가지 생각해 볼 수 있는 방법은 $\langle x - \langle x \rangle \rangle$이다. 변수 $x$가 평균 $\langle x \rangle$로부터 떨어져 있는 거리의 평균이다. 그러나 linear transformation에서 알 수 있었듯이 이 값은 자명하게 $0$이다. 이는 평균으로부터 Gaussian이 좌우 대칭이기 때문에 벌어지는 결과다. 그렇다면 절댓값을 씌워서 $\langle |x - \langle x \rangle|\rangle$은 어떤가? 하지만 절댓값은 case에 따라 대수적인 조작을 해주어야 하기 때문에 다루기 쉽지 않다.
따라서 우리는 제곱을 해서 얻은 값인 $\langle (x - \langle x \rangle)^2 \rangle$을 계산할 것이다. 이를 계산하면 다음과 같다. $$\langle (x - \langle x \rangle)^2 \rangle = \langle x^2 - 2\langle x\rangle x + \langle x \rangle^2 \rangle \\ = \langle x^2 \rangle - 2 \langle x \rangle^2 + \langle x \rangle^2 = \langle x^2 \rangle - \langle x \rangle^2$$ 이제 위에서 계산한 $\langle x \rangle = x_0, \langle x^2 \rangle = \sigma^2 + x^2_0$을 대입하면 $\langle (x - \langle x \rangle)^2 \rangle = \sigma^2$을 얻는다. 따라서 $\sigma$는 평균으로부터 각 점들이 얼마나 떨어져있는지를 나타내는 척도이며, 이 값을 variance of $x$라고 부른다.
Variance and Standard Deviation
Definition 1. The variance of $x$, written as $\sigma^2_x$, is defined by $$\sigma^2_x = \langle (x - \langle x \rangle)^2 \rangle.$$ We will call $\sigma_x$ the standard deviation of $x$.
위 정의에 의해 standard deviation, 즉 표준 편차는 $x - \langle x \rangle$의 root-mean-square로 정의됨을 알 수 있다. 만일 $\sigma$ 값이 크다면 평균으로부터 $x$값들이 떨어져 있는 거리의 평균이 크다는 뜻이고, 이는 전체적으로 Gaussian이 양옆으로 넓게 퍼져있다는 뜻이다. Variance of $x$는 $x^2$의 단위를, standard deviation은 $x$의 단위를 가진다.
$y = ax + b$로 정의되는 random variable에 대해서 variance of $y$, 즉 $\sigma_y^2$을 구해보자. $$\sigma^2_y = \langle (y - \langle y \rangle)^2 \rangle = \langle y^2 \rangle - \langle y \rangle^2 \\ = \langle a^2x^2 + 2abx + b^2 \rangle - (a\langle x \rangle + b)^2 = a^2\langle x^2 \rangle - a^2 \langle x \rangle^2 = a^2 \sigma^2_x$$ 따라서 $\sigma_y = a \sigma_x$가 성립한다.
Independent Variables
Continuous random variables $u, v$가 independent 하고 각각 $[u, u+du], [v, v+dv]$의 interval에 속한다고 하자. 이때 이 두 구간에서 두 변수의 곱의 확률은 $P_u(u)du P_v(v)dv$로 주어진다. 따라서 평균값 $\langle uv \rangle$은 다음과 같이 계산된다. $$\langle uv \rangle = \int \int uv P_u(u)P_v(v) du dv = \int uP_u(u) du \int vP_v(v) dv = \langle u\rangle \langle v \rangle$$ 이 공식은 일반적으로 성립하지 않는다. 예컨대 일반적으로는 $\langle x^2 \rangle \neq \langle x \rangle^2$이다. 이는 달리 말해서 우리가 고려하는 어떠한 분포, 예컨대 Gaussian 같은, 에서 spread값을 말할 수가 있다면 variance는 $0$이 아니게 되고, 따라서 일반적으로 위에서 우리가 보인 공식은 성립하지 않는다.
Experiemental Error
예를 들어 $n$번의 측정을 통해 서로 independent 한 관측값 $X_i$를 얻었다고 하자. 각 $X_i$는 random variables로 동일한 평균 $\langle X \rangle$와 분산 $\sigma^2_X$를 가진다. 이제 $Y = \sum_{i=1}^n X_i$라는 확률 변수를 정의하고 $Y$의 평균과 분산을 계산해 보자.
$$\langle Y \rangle = \langle \sum_{i=1}^n X_i \rangle = \sum_{i=1}^n \langle X_i \rangle = n \langle X \rangle \\ \langle Y^2 \rangle = \langle \sum_{i, j} X_i X_j \rangle = \langle \sum_{i=1}^n X^2_i + \sum_{i \neq j} X_i X_j \rangle = \sum_{i=1}^n \langle X^2_i \rangle + \sum_{i \neq j} \langle X \rangle^2 \\ = \sum_{i=1}^n \langle X_i^2 \rangle + (n^2 - n) \langle X \rangle^2 = \sum_{i=1}^n (\sigma^2_X + \langle X_i \rangle^2 ) + (n^2 - n) \langle X \rangle^2 \\ = n \sigma^2_X + n^2 \langle X \rangle^2 \\ \Longrightarrow \sigma^2_Y = \langle Y^2 \rangle - \langle Y \rangle^2 = n \sigma^2_X + n^2 \langle X \rangle^2 - n^2 \langle X \rangle^2 = n \sigma^2_X$$ 따라서 $\sigma_Y = \sqrt{n} \sigma_X$이다.
이제 $X_i$의 산술 평균 $W$를 고려하자. 즉 $W = \frac{Y}{n}$이다. $W$의 평균과 분산은 다음과 같이 계산된다. $$\langle W \rangle = \frac{\langle Y \rangle}{n} = \langle X \rangle \\ \sigma^2_W = \langle W^2 \rangle - \langle W \rangle^2 = \langle \frac{Y^2}{n^2}\rangle - \langle X \rangle^2 = \frac{1}{n^2} \langle Y^2 \rangle - \langle X \rangle^2 \\ = \frac{1}{n^2}(\sigma^2_Y + \langle Y \rangle^2) - \langle X \rangle^2 = \frac{1}{n^2}(n \sigma^2_X + n^2 \langle X \rangle^2) - \langle X \rangle^2 = \frac{\sigma^2_X}{n}$$ 따라서 $\sigma_W = \frac{\sigma_X}{\sqrt{n}}$이 성립한다. 이 말인즉슨, 측정을 많이 하면 많이 할수록 관측값들의 산술 평균의 오차 $\sigma_W$는 줄어듦을 의미한다.