블로그 보관함

2011년 7월 12일 화요일

생존 분석 기본 개념

생존 분석 기본 개념
생존 분석(survival analysis)이라고 하면 주로 생명체의 죽음 또는 기계 장치의 고장에 관련된 통계 분석이지만 이 분야에 한정된 것은 아니다. 공학 분야에서 reliability analysis, failure time analysis, 경제학 분야에서 duration analysis, transition analysis, 사회학 분야에서 event history analysis 등의 이름으로 불리며 이들 사이에 실질적인 분석 방법의 차이는 없다. 질병의 발생이나 기계의 오작동 뿐만 아니라 지진의 발생, 자동차 사고 발생, 주가의 추락, 등을 분석하는 데에 사용된다[1].
생존 분석을 더 일반적인 개념을 사용하여 'time to event' 자료의 분석이라고도 하는데 사망, 고장, 사고, 폭락 등을 사건(event)이라고 보고 해당 사건이 일어날 때까지 걸린 시간을 데이터로 다룬다는 의미이다. 이제 이런 사건을 생존 분석에서는 사망(death)라고 지칭하는 경우가 많고 좀더 일반적으로는 고장/실패(failure)로 지칭하는 경우가 많다. 하지만 반드시 '사망'이거나 '실패'일 필요는 없다. 무엇이든 우리가 관심을 가지는 사건이면 된다.

생존 시간

우리는 사건이 일어나는 시간에 관심이 있다. 이 사건이 발생하는 시간을 \(T\)라고 하자. 이것은 확률 변수이다. 생존 분석에서는 이것을 생존 시간(survival time)이라고 한다. 시간이 항상 0에서부터 시작한다고 보면 사건이 일어나는 시점 \(T\)는 사건이 일어나기까지 걸린 시간이기도 하다.

생존 함수

생존 함수(survival function 또는 suvivor function) \(S(t)\)는 생존 시간 \(T\)가 특정 시간 \(t\) 보다 클 확률을 가리킨다. \(T\)의 cdf를 \(F(t)\)라고 하면 다음 관계가 성립한다. \[ S(t) = P(T > t) = 1 - F(t) \] 생존 함수 \(S(t)\)는 \(t\) 시점에서 살아있을 또는 \(t\) 시점까지 살아남을 확률이다. 이때 \(t\) 시점까지 살아남는다는 것은 \(t\) 시점까지만 살고 바로 그때 죽는다는 뜻이 아니다. \(t\) 시점 이후에 죽는다는 뜻이다. 더 일반적으로 말로 표현하면 \(t\) 시점까지 관심 사건이 일어나지 않을 확률이다.

위험 함수

위험 함수(hazard function) \(h(t)\)는 주어진 시간 \(t\)에서 단위 시간 당 사건 발생율이다. \[ h(t) = \lim_{\Delta t \to 0} \frac{P(t \leq T < t+ \Delta t |T \geq t)}{\Delta t} \] 사건이 일어날 순간 가능성(instantaneous potential)이라고도 할 수 있다. 위험 함수를 조건부 실패율(conditional failure rate)라고도 한다.

함수들 사이의 관계

생존 함수 \(S(t) = P(T>t)\)와 생존 시간 \(T\)의 cdf인 \(F(t)\)사이에는 \[ S(t) = 1 - F(t) \] 관계가 성립하므로 양변을 \(t\)에 관해 미분하면 \[ \frac{d}{dt}S(t) = - f(t) \] 와 같은 관계를 얻을 수 있다. 여기에서 \(f(t)\)는 \(T\)의 pdf이다.

위험 함수 \(h(t)\)의 정의를 따라 식을 바꾸어 보면 \begin{align*} h(t) &= \lim_{\Delta t \to 0} \frac{P(t \leq T < t+ \Delta t |T \geq t)}{\Delta t}\\ &= \lim_{\Delta t \to 0} \frac{P(t \leq T < t+\Delta t)}{P(T \geq t)}\frac{1}{\Delta t}\\ & = \frac{1}{P(T \geq t)}\lim_{\Delta t \to 0} \frac{P(t\leq T < t+\Delta t)}{\Delta t}\\ & = \frac{1}{P(T \geq t)}f(t)\\ & = \frac{f(t)}{S(t)}\\ & = - \frac{d}{dt}\ln S(t) \end{align*}

누적 위험 함수

누적 위험 함수 \(H(t)\)는 다음과 같다. \[ H(t) = \int_0^t h(u)du = - \ln S(t) \] 따라서 \[ S(t) = e^{H(t)} \] 이다.

참고

  1. Survival Analysis Using SAS: A Practical Guide

댓글 없음:

댓글 쓰기