Loading [MathJax]/extensions/MathEvents.js

블로그 보관함

2012년 10월 20일 토요일

조건부 확률의 조건부 확률. posterior predictive distribution.

조건부 확률

조건부 확률을 보통 A, B 기호를 가지고 이야기하지만 여기서는 좀 헤깔릴 수가 있으니 Y, A로 표시해 보자. Y는 관심 사건이고 A는 주어진 조건에 해당하는 사건이다. 조건부 확률의 기본적인 정의에 따라 쓰면 다음과 같다.

P(Y|A) = \frac{P(Y, A)}{P(A)}


그리고 전확률 법칙(Law of Total Probability)라는 것도 있다. 표본 공간이 B_1,B_2,\cdots,B_n으로 분할(partition)되어있을 때
P(Y) = \sum_{i=1}^n P(Y|B_i)P(B_i)
이 성립한다는 법칙이다. 이것은 P(Y)를 구하기가 힘들 때 P(Y|B_i)들은 구하기 쉽고 각 P(B_i)들을 이미 알고 있는 경우에 유용하게 쓸 수 있는 법칙이다.

그런데, 이런 경우를 생각해보자. P(Y|A)를 구해야하는데 이것을 구하기가 힘들다. 그런데, B_i로 이 문제를 분할하여 구하는 것은 쉽다고 하자. 조건부 확률의 조건부 확률을 생각해보는 것이다. 다음처럼 구할 수 있다.
P(Y|A) = \sum_{i=1}^n P(Y|B_i,A)P(B_i|A)
이 식을 바로 생각하려고 하면 헤깔릴 때가 있다. YA라는 조건 아래서 생각하고 있는 데 거기에 B_i라는 조건을 추가로 고려하면 어떻게 될까, 하는 것인데. 두번째 항을 P(A|B_i)인 것으로 착각을 할때가 있다. 식을 따져보면 당연한 것이기는 하다.
\sum_{i=1}^n P(Y|B_i,A)P(B_i|A) = \sum_{i=1}^n \frac{P(Y,B_i,A)}{P(B_i,A)}\frac{P(B_i,A)}{P(A)} = \sum_{i=1}^n \frac{P(Y,B_i,A)}{P(A)} = \frac{P(Y,A)}{P(A)} = P(Y|A)

Posterior Predictive Distribution


미지의 평균과 분산이 \theta =(\mu, \sigma^2)인 대상에 대해 y=(y_1,\cdots,y_n)을 관측했다. \tilde y는 다음 번 관측 대상의 값이다. 이때 \tilde y의 분포를 posterior predictive distribution이라고 한다. 다음처럼 구한다.

\begin{align} p(\tilde y|y) &= \int p(\tilde y, \theta | y) d\theta\\ &= \int p(\tilde y|\theta, y)p(\theta|y) d\theta\\ &= \int p(\tilde y|\theta)p(\theta | y) d\theta.\\ \end{align}
마지막 행이 성립하는 것은 \tilde yy가 given \theta에서 조건부 독립이기 때문이다.

예제


여자아이가 태어날 확률을 \theta라고 하자. 서로 독립적인 n명의 신생아를 관찰하였을 때 여자아이의 수는 이항분포 Binomial(n, \theta)를 따른다. 사전분포로는 균일분포 \theta \sim Unif(0,1)을 사용하자. 1000명의 신생아를 관찰하였더니 485명이 여자아이였다. 1001번째 신생아가 여자아이일 확률은?

n명 중 여자아이의 수 y라고 하자. likelihood는
p(y|\theta) = \binom{n}{y} \theta^y(1-\theta)^{n-y}
piror distribution는
\pi(\theta) = 1, \qquad 0 < \theta < 1
posterior distribution은
\begin{align} p(\theta|y) &\propto p(y|\theta)\pi(\theta)\\ &\propto \theta^y (1-\theta)^{n-y} \end{align}
형태이므로 Beta(y+1, n-y +1) 분포임을 알 수 있다.

이제 새로 태어날 아이에 대한 관측을 \tilde y라고 하면 여자아이일 확률은
\begin{align} p(\tilde y = 1| y) &= \int_0^1 p(\tilde y = 1 | \theta,y)p(\theta|y) d\theta\\ &= \int_0^1 p(\tilde y = 1 | \theta)p(\theta|y) d\theta \\ &= \int_0^1 \theta p(\theta|y) d\theta\\ &= E(\theta|y) & (\theta|y \sim Beta(y+1, n-y+1))\\ &= \frac{y+1}{n+2} & (\because X\sim Beta(\alpha, \beta),\; EX = \alpha/(\alpha+ \beta))\\ \end{align}

따라서, 새로 태어날 아이가 여자아이일 확률을 486/1002.





댓글 없음:

댓글 쓰기