초기하분포와 이항분포
베르누이 분포
베르누이 시행(Bernoulli trial)은 결과가 두 가지만 랜덤하게 나오는 실험을 말한다. 동전을 던져서 앞면이 나오는가 뒷면이 나오는가 관찰하는 시험 같은 것이 해당된다. 일반적으로 결과를 성공, 실패라 한다. 베르누이 확률변수 \(X\)는 성공이면 \(X=1\), 실패이면 \(X=0\)인 확률변수이다. 성공 확률이 \(p\)라고 할 때 베르누이 확률변수의 분포는 \[ P(X=1) = p, \quad P(X=0) = 1-p \] 가 된다. 굳이 하나로 쓰겠다면 \[ P(X=x) = p^x(1-p)^{1-x}, \quad x=0, 1 \] 라고 쓸 수 있다. 확률변수 \(X\)가 성공률 \(p\)인 베르누이 확률분포를 따르는 경우 \[ X \sim Ber(p) \] 라고 나타내자.
이항분포
이항분포(binomial distribution)는 베르누이 시행을 \(n\)번 반복했을 때 성공의 횟수이다. 성공 확률이 \(p\)라고 하면 성공의 횟수 \(X=x\)일 확률은 \[ P(X=x) = \binom{n}{x}p^x (1-p)^{n-x} \] 이다. 이것을 베르누이 확률변수의 합으로도 이야기할 수 있다. 베르누이 확률변수는 성공이면 1, 실패이면 0이므로 베르누이 확률변수들의 합이란 결국 성공의 횟수와 동일하다. 서로 독립이고 성공 확률이 \(p\)인 베르누이 확률 변수의 열 \(X_1, X_2, \cdots, X_n\)이 있을 때 이것들의 합을 생각할 수 있다. \[ X = \sum_{i=1}^n X_i, \quad X_i \stackrel{iid}{\sim} Ber(p) \] 이때 \(X\) 또한 확률변수이다. 그리고 \(X\)의 분포가 바로 이항분포이다. 시행 횟수 \(n\), 성공 확률 \(p\)일 때 성공 횟수 \(X\)의 분포를 간단히 \[ X \sim bin(n,p) \] 라고 나타내자.
초기하분포
초기하분포(hypergeometric distribution)는 유한한 모집단에서 비복원 추출을 할 때 성공의 횟수의 분포이다. 사탕 상자가 있는데 \(m\)개는 딸기 맛, \(n\)개는 겨자 맛이라고 하자. 상자에서 \(k\)개의 사탕을 비복원 추출했을 때 딸기 맛 사탕의 개수를 \(X\)라고 하자. 그렇다면 딸기 맛 사탕의 개수가 \(X=x\)일 확률은 \[ P(X=x) = \frac{\binom{m}{k}\binom{n}{k-x}}{\binom{m+n}{k}} \] 이 된다. 분모는 전체 가능한 경우의 수이므로 맛을 구별하지 않고 전체 \(m+n\)개 중에 \(k\)개를 고르는 경우의 수이다. 분자는 딸기 맛 \(m\)개 중에서 \(x\)개를 뽑는 경우의 수와 겨자 맛 \(n\)개 중에서 \(k-x\)개를 고르는 경우의 수를 곱한 것이다. 이런 초기하분포를 모수 3개를 이용하여 \[ X \sim hyper(m,n,k) \] 로 나타내자.
초기하분포의 이항분포로의 수렴
초기하분포에서 \(m\rightarrow\infty\), \(n\rightarrow\infty\), \(m/(m+n) \rightarrow p\)이면 이항분포로 수렴한다. 마법 상자가 있어서 무한히 많은 사탕이 들어 있는데 딸기 맛이 60\%, 겨자 맛이 40\%로 비율이 일정한 경우 그 중 \(n\)개를 비복원 추출하는 경우를 생각해 보자. 무한히 사탕이 많으니 비복원 추출로 100개를 뽑으나 1억 개를 뽑으나 사탕 하나를 꺼낼 때 딸기 맛 사탕일 확률은 0.6이다. 그러니까 초기하분포가 모집단의 크기가 엄청나게 크면 이항분포에 가깝게 되는 것이다.
초기하분포가 이항분포로 수렴하는 것을 증명해 보자.
이것을 증명하기 위해서 알아두어야할 공식이 있다. 스털링의 공식(Stirling's formula)이다. \(n!\)의 근사값을 구하기 위한 공식이다. \(n\)이 클 때 \[ n! \approx \sqrt{2\pi n} (n/e)^n \] 이 성립한다. 여기서 \(e\)는 물론 자연상수이다. 또 하나는 \[ \lim_{n\rightarrow\infty}\left(1+\frac{a}{n}\right)^n = e^a \] 이다. 초기하분포의 pdf를 정리하여 보자. \[ P(X=x) = \frac{\binom{m}{x}\binom{n}{k-x}}{\binom{m+n}{k}} = \frac{\frac{m!}{(m-x)!x!}\frac{n!}{(n-k+x)!(k-x)!}}{\frac{(m+n)!}{(m+n-k)!k!}} \] 일단 특별한 것은 없다. \(m\), \(n\)은 무한히 커질 것이지만 \(x\), \(k\)는 상수로 변하지 않을 것이니 앞으로 빼내고 나머지는 그대로 쓴 것이다. \[ = \frac{k!}{x!(k-x)!}\frac{m!}{(m-x)!}\frac{n!}{(n-k+x)!}\frac{(m+n-k)!}{(m+n)!} \] 첫번째 항을 보면 벌써 이항 분포에 들어갈 것이 나왔다. 이항분포는 다음 처럼될 것이다. \[ P(X=x) = \binom{k}{x} p^{x}(1-p)^{k-x} = \frac{k!}{x!(k-x)!}p^{x}(1-p)^{k-x} \] 이제 \(p^x(1-p)^{k-x}\) 부분만 만들면 된다. 스털링의 공식을 적용하자. 분모, 분자의 멱승의 개수가 똑같으므로 스털링 공식에서 상수 부분 \(\sqrt{2\pi}\)는 어차피 약분이 될 것이니 쓸 필요없다. \[ \approx \binom{k}{x} \frac{m^{m+1/2}}{(m-x)^{m-x+1/2}} \frac{n^{n+1/2}}{(n-k+x)^{n-k+x+1/2}} \frac{(m+n-k)^{m+n-k+1/2}}{(m+n)^{m+n+1/2}} \] 위 식에서 스털링 공식의 \(e^n\) 부분을 쓰지 않았다. 분모, 분자에서 동일하기 때문이다. 분자는 \(m+n+m+n-k = 2m+2n-k\)이고 분모는 \(m-x+n-k+x+m+n = 2m+2n-k\)로 동일하다. 따라서 약분이 되어 사라진다. 이제 분모, 분자를 하나로 묶을 수 있게 제곱부분에 있는 \(x\), \(k\)를 밖으로 빼보자. \[ = \binom{k}{x} \left(\frac{m}{m-x}\right)^{m+1/2} \left(\frac{n}{n-k+x}\right)^{n+1/2} \left(\frac{m+n-k}{m+n}\right)^{m+n+1/2} \frac{(m+n-k)^{-k}}{(m-x)^{-x}(n-k+x)^{-k+x}} \] 여기서 두번째, 세번째, 네번째 항을 보자. \[ \lim_{m\rightarrow\infty} \left(\frac{m}{m-x}\right)^{m+1/2} = \lim_{m\rightarrow\infty} \left(\frac{m}{m-x}\right)^{m} \left(\frac{m}{m-x}\right)^{1/2} = \lim_{m\rightarrow\infty} \left(\frac{m-x}{m}\right)^{-m} = \lim_{m\rightarrow\infty} \left(1-\frac{x}{m}\right)^{-m} = e^x \] 이런 방식으로 각각은 \[ \lim_{m\rightarrow\infty} \left(\frac{n}{n-k+x}\right)^{n+1/2} = e^{k-x} \] \[ \lim_{m\rightarrow\infty} \left(\frac{m+n-k}{m+n}\right)^{m+n+1/2} = e^{-k} \] 로 수렴한다. 그래서 결국 \( e^x e^{k-x} e^{-k} =1 \)로 사라지고 \[ \approx \binom{k}{x} \frac{(m+n-k)^{-k}}{(m-x)^{-x}(n-k+x)^{-k+x}} \] 만 남는다. 이제 분모 분자를 바꾸고 \(k = x + k-x \)로 나누어 쓰면 \[ = \binom{k}{x} \frac{(m-x)^{x}(n-k+x)^{k-x}}{(m+n-k)^k} = \binom{k}{x} \frac{(m-x)^{x}(n-k+x)^{k-x}}{(m+n-k)^x(m+n-k)^{k-x}} \] 이제 다 정리되었다. \[ \left(\frac{m-x}{m+n-k}\right)^x = \left(\frac{\frac{m}{m+n}-\frac{x}{m+n}}{1-\frac{k}{m+n}}\right)^x \rightarrow p^x, \qquad \frac{m}{m+n}\rightarrow p, m\rightarrow\infty, n\rightarrow\infty \] 따라서 \[ \approx \binom{k}{x}p^x(1-p)^{k-x} \]
계속 찾고 있었는데 감사합니다....
답글삭제덕분에 제대로 이해가고 갑니다.