블로그 보관함

2011년 6월 10일 금요일

지수족과 완전통계량

지수족(exponential family)과 완전통계량(complete statistics)

지수족

우선 모수가 하나인 경우만 생각해 보면 지수족은 pdf가 \[ f(x|\theta) = h(x)c(\theta)\exp(\eta(\theta)t(x)) \] 의 형태로 나타낼 수 있는 분포를 말한다. 모수가 여러 개인 경우, 즉, 모수가 \(\theta=(\theta_1,\cdots,\theta_k)\)인 경우로 일반화하면 pdf를 \[ f(x|\theta) = h(x)c(\theta)\exp\left(\sum_{j=1}^k \eta_j(\theta)t_j(x)\right) \] 로 나타낼 수 있는 분포이다. 지수족에는 정규분포, 지수분포, 감마분포, 카이제곱분포, 베타분포, 디리클레분포, 베르누이분포, 다항분포, 포아송분포 등이 속한다.

이항분포

이항분포의 pdf는 \begin{align*} f(x|n,p) &= \binom{n}{x}p^x(1-p)^{n-x}\\ &= \binom{n}{x}\exp\left(n\log(1-p)\right)\exp\left(x\log\frac{p}{1-p}\right) \end{align*} 로 나타낼 수 있다. 여기에서 \(\eta = \log\frac{p}{1-p}\)에 해당하는 것을 알 수 있다. 이것이 이항분포의 자연모수(natural parameter)이다. 즉, 이항분포의 자연모수는 로짓(logit)이다.

포아송분포

포아송분포의 pdf는 \[ f(x|\lambda) = e^{-\lambda}\frac{\lambda^x}{x!} = \frac{1}{x!}e^{-\lambda}\exp(x\log\lambda) \] 로 나타낼 수 있다. 여기에서 \(\eta=\log\lambda\)가 포아송분포의 자연모수이다.

정규분포

정규분포의 pdf는 \begin{align*} f(x|\mu,\sigma^2) &= (2\pi\sigma^2)^{-1/2}\exp(-(x-\mu)^2/2\sigma^2)\\ &= (2\pi)^{-1/2} \sigma^{-1}\exp(\mu^2/2\sigma^2) \exp\left(-\frac{1}{2\sigma^2}x^2 + \frac{\mu}{\sigma^2}x\right) \end{align*} 와 같이 나타낼 수 있다. \(\eta = (\frac{\mu}{\sigma^2}, -\frac{1}{2\sigma^2})\)이다. \(\sigma\)가 알려진 경우에는 \(\eta =\mu\)가 된다.

일반화선형모형에서 연결함수

참고로, 일반화선형모형(GLM)에서 반응변수가 이항분포일 때 로지스틱 회귀(logistic regression)하면서 연결함수(link function)으로 로짓 함수를 쓴다. 이렇게 자연모수를 연결함수로 쓸 때 정준연결함수(canonical link function)라고 한다. 반응변수가 포아송분포일 때에는 연결함수로 로그 함수를 쓴다. 이것을 로그선형(log-linear) 모형이라고 한다. 이것을 포아송 회귀(Poisson regression)이라고 부르기도 한다. 반응변수가 정규분포일 때는 연결함수로 항등함수를 사용한다.

지수족에서 완전통계량

랜덤샘플 \(X= (X_1,\cdots,X_n)\)가 지수족에 속하는 분포에서 얻어진 것일 때, 즉 pdf가 \[ f(x|\theta) = h(x)c(\theta)\exp\left(\sum_{j=1}^k \eta_j(\theta)t_j(x)\right) \] 일 때 joint pdf는 \[ f_{X_1,\cdots,X_n}(x_1,\cdots,x_n|\theta) = \left\{\prod_{i=1}^n h(x)\right\} \left\{c(\theta)\right\}^n \exp\left( \sum_{j=1}^k \left\{\eta_j(\theta) \sum_{i=1}^n t_j(x_i)\right\}\right) \] 가 되고 \[ T(X) = \left(\sum_{i=1}^n t_1(X_i), \cdots, \sum_{i=1}^n t_k(X_i)\right) \] 는 완전통계량(complete statistic)이다. 이때, 모수공간 \(\Theta\)가 \(R^k\)에서 열린집합을 포함한다는 조건에서 그렇다.

댓글 없음:

댓글 쓰기