Random Walk
금요일 저녁, 오늘도 대학가는 한 주간의 노고를 달래기 위해 몰려온 대학생들로 가득하다. 이때 잔뜩 취한 듯한 우리의 관측 대상이 한 가게에서 발견되었다! 관측 대상은 종잡을 수 없는 움직임으로 비틀대며 길가를 활보한다. 이때 일정 시간이 지나고 특정 지점에 우리의 관측 대상이 발견될 확률은 얼마나 될까?
가게의 위치를 원점으로 잡고, 관측 대상은 원점에서 출발해 $x$축 위에서 움직인다고 하자. 우리는 $x$축을 discretize하여서 단위 길이를 $l$로 둘 것이다. 즉 관측 대상은 '한 번' 움직일 때 $l$만큼 이동할 수 있다. 그리고 관측 대상은 $-l$만큼 움직일 것인지, $+l$만큼 움직일 것인지 반반의 확률로 판단을 한다고 가정하자. 즉 각 case를 선택할 확률은 $0.5$다. 또한 한 번 결정할 때마다 걸리는 시간을 $\tau$라고 하면 총 $t$만큼의 시간이 흘렀을 때 관측 대상은 $\frac{t}{\tau} = N$번 이동하였다고 볼 수 있다. 그렇다면 $t$의 시간이 흐른 뒤 대상의 위치를 $x(t)$라고 할 때, $x(t) = \sum_{i=1}^N x_i$가 성립한다. 이때 $x_i$는 각각 $$x_i = \begin{cases} +l \\ -l \end{cases}$$의 값을 가지는 random variable이다. 즉 $i$번째로 대상이 결정한 이동 방향인 것이다. 정의에 의해 $\langle x_i \rangle = 0$이고, 따라서 $\langle x(t) \rangle = 0$이다.
따라서 대상이 $t$ 정도 시간이 흐른 후 발견될 위치의 평균은 $0$, 즉 원점이다. 그렇다면 분산을 구해보자. 우선 각 $x_i$들의 분산은 다음과 같다. $$\sigma^2_{x_i} = \langle x^2_i \rangle - \langle x_i \rangle^2 = \langle x^2_i \rangle = \frac{1}{2} (+l)^2 + \frac{1}{2} (-l)^2 = l^2$$ 따라서 $$ \sigma^2_{x(t)} = N \sigma^2_{x_i} = N l^2 = 2 \frac{l^2}{2 \tau} t$$이다. 이때 $D := \frac{l^2}{2 \tau}$로 정의되는 상수를 diffusion constant라고 부르고, 최종적으로 $\sigma_{x(t)} = \sqrt{2Dt}$로 계산된다. 즉 시간이 흐름에 따라 위치의 표준 편차는 느리게 증가한다.
동일한 결과를 다른 방법으로도 얻을 수 있다. $x_i = +l$을 만족하는 $i$의 개수를 $n_+$, 반대의 경우를 $n_-$로 두자. 따라서 $n_+ + n_- = N$이다. 그렇다면 $t$초 후의 물체의 위치 $x(t)$는 다음을 만족한다. $$x(t) = n_+l - n_-l = n_+l - (N - n_+)l = 2n_+l - Nl$$ 또한 다음이 성립한다. $$P(n_+) = \binom{N}{n_+} \left( \frac{1}{2} \right)^{n_+} \left( \frac{1}{2} \right)^{N - n_+} \\ \langle n_+ \rangle = \frac{N}{2} \\ \sigma^2_{n_+} = \frac{N}{4}$$ 이를 가지고 $x(t)$의 평균과 분산을 구하면 다음과 같다. 자세한 계산은 생략한다. $$\langle x(t) \rangle = 2l \langle n_+ \rangle - Nl = 0 \\ \sigma^2_{x(t)} = \langle x^2 \rangle - \langle x \rangle^2 = Nl^2$$
Random walk는 diffusion이라는 물리적 현상과 밀접한 관련이 있다. Diffusing substace들은 각각이 독립적인 random walker처럼 거동하는 particle들로 이루어져 있기 때문이다. 위 예시를 다시 가져온다면, 원점에 diffusing substace들을 꽉 뭉쳐놓았다가 풀어 놓는다고 하자. 즉 $t=0$, 뭉쳐놨다가 풀기 시작하는 순간에 원점에서 물질은 무한대의 밀도를 가진다. 그러다가 시간이 흐르면 원점에서부터 물질은 퍼져나가기 시작하고, 높은 밀도에서 낮은 밀도로의 어떠한 '흐름'을 발견하게 된다. 이러한 물리적 현상을 diffusion이라고 부른다.
그런데 위에서 계산했듯이, random walk의 표준편차는 $\sqrt{t}$에 비례하여 증가한다. 즉 시간이 흐름에 따라 꽤나 느리게 증가하므로 실제로 diffusion은 매우 느리게 진행되는 과정이다. 실제로 위에서 정의한 diffusion constant를 계산해서 diffusion이 일어나는 정도를 계산하면 diffusion은 몇 시간에 걸쳐서 공간으로 번지는 현상이다. 그런데 우리는 모두 경험적으로 향수병을 열면 금세 향수 냄새를 맡게 됨을 알고 있다. 이는 diffusion과 더불어 convection, 즉 대류가 함께 일어나고 있기 때문이다. 실제로 convection은 diffusion보다 훨씬 더 빠르게 일어나는 현상이다.
Bernoulli Trial
베르누이 시행이란 결과값으로 오직 두 가지 경우만 가능한 시행을 의미한다. 이때 각 시행은 독립이고 어느 한 가지 경우가 일어날 확률은 $p$로, 나머지는 $1-p = q$로 주어진다. 예컨대 매우 공정한 동전을 여러 번 던지는 시행은 베르누이 시행인데, 이때 앞면과 뒷면이 나올 확률은 각각 $0.5$이다.
Binomial Distribution
그렇다면 $n$번의 베르누이 시행을 할 때 $p$의 확률을 갖는 결과값이 $k$번 발생할 확률은 얼마일까? 이 확률을 $P(n, k)$라고 두자. 총 $n$ 번의 시행에서 $p$의 확률이 $k$번 걸쳐서 일어났으므로 $p^k$, 그리고 $q$의 확률이 $n-k$번이므로 $q^{n-k}$이다. 그리고 $n$번에 걸친 시행에서 이러한 결과가 여러 조합으로 발생할 수 있으므로 이항 계수를 고려해준다면 최종적으로 구하고자 하는 확률은 다음과 같이 주어진다. $$P(n, k) = \binom{n}{k} p^k q^{n-k}$$ 이와 같은 확률밀도함수를 가지는 확률 분포를 binomial distribution, 즉 이항 분포라고 부른다. 이항 분포의 확률밀도함수는 $$\sum_{k=0}^{n} \binom{n}{k} p^k q^{n-k} = (p + q)^n = 1$$이므로 normalization되어 있다.
$P(n, k)$에서 확률 변수는 $k$로, 이산 확률 변수이다. 이제 $k$의 평균과 분산을 구해보자. \[
\langle k \rangle = \sum_{k=0}^n k P(n, k) = \sum_{k=0}^n k \binom{n}{k} p^k q^{n-k} \\
= \sum_{k=0}^n p \frac{\partial P(n, k)}{\partial p} = p \frac{\partial \left(\sum_{k=0}^n P(n, k) \right)}{\partial p} = p \cdot n(p+q)^{n-1} = np
\\
\sum_{k=0}^n p^2 \frac{\partial^2 P(n, k)}{\partial p^2} = \sum_{k=0}^n p^2 k(k-1) \binom{n}{k} p^{k-2} q^{n-k}
\\
= \sum_{k=0}^n \binom{n}{k} k(k-1)p^k q^{n-k} = \sum_{k=0}^n (k^2 - k)P(n, k) = \langle k^2 \rangle - \langle k \rangle
\\
\sum_{k=0}^n p^2 \frac{\partial^2 P(n, k)}{\partial p^2} = p^2 \frac{\partial^2 (p+q)^n}{\partial p^2} = p^2 \cdot n(n-1)(p+q)^{n-2}
\\
= p^2(n^2 - n) = n^2p^2 - np^2
\\
\langle k^2 \rangle - \langle k \rangle = n^2p^2 - np^2 \Longrightarrow \langle k^2 \rangle = n^2p^2 - np^2 + np
\\
\sigma_k^2 = \langle k^2 \rangle - \langle k \rangle^2 = np(1 - p) = npq
\] 이산 확률 변수에 대한 확률 분포인 이항 분포이지만, 베르누이 시행의 관점에서 볼 때 시행 횟수가 아주 많아지면, 즉 $n \to \infty$이면 이항 분포는 Gaussian, 즉 정규 분포로 근사된다.