Post

통계학 - 지수분포, 감마분포, 카이제곱분포

1. 지수 분포(Exponential distribution)

첫사건이 발생하는데 걸리는 시간분포이다. 여기서 말하는 첫사건이란 사건이 일어날 횟수가 포아송 분포를 따른 다는 가정하에 이 사건이 처음 일어나는데 걸리는 시간이나 임의의 사건이 일어나고 다음 사건이 일어나기까지의 시간으로 앞서 말한 시간들은 지수분포를 따른다.

1) 확률 밀도 함수

여기서 $\lambda$는 서로 독립인 사건이 발생하는 빈도를 나타내는 모수이다.

\[f(x)=\begin{cases} \lambda e^{-\lambda x} \: \: x \leq 0 \\ 0 \: \: \: \: \: \: \: \: \: \: x < 0 \end{cases}\]

여기서 e는 자연 상수를 말한다.

위에 따르면 $\frac{1}{\lambda}$ 시간 간격으로 일어나는 사건이 x시간 안에 일어날 확률은 아래와 같다.

\[P(X\leq x) = F(x) = \begin{cases} 1-e^{-\lambda x} \: \: \: \: \: x \geq 0 \\ 0 \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: \: x < 0 \end{cases}\]

x 시간 이후에 일어날 확률은 아래와 같다.

\[P(X \geq x) = 1- F(x) = \begin{cases} e^{-\lambda x} \: \: \: \: \: x \geq 0 \\ 0 \: \: \: \: \: \: \: \: \: \: \: x < 0 \end{cases}\]

이는 x 시간 이전과 이후의 사건은 서로 독립적이기 때문에 그러하다.

2) 기댓값

\[E(X) = \frac{1}{\lambda}\]

3) 분산

\[Var(X) = \frac{1}{\lambda^{2}}\]

2. 감마 분포 (Gamma distribution)

지수 분포가 사건이 첫번째로 일어날 확률에 대해서 다룬 것이라면 감마 분포는 특정 횟수 번째 사건이 일어나기 까지 걸리는 시간에 대한 확률 분포이다.

1) 확률 밀도 함수

\(f(x|a,\lambda) = \frac{\lambda^{a}e^{-\lambda x}}{\Gamma (a)}x^{a-1}\)

a는 특정 횟수 번째를 나타낸다.

여기서 $\Gamma$는 감마함수(Gamma function)으로 다양한 확률 밀도 함수를 정규화 시켜 합을 1로 만드는 함수이다. 정의 역이 모든 양의 정수인 경우에는 아래와 같이 나타낼수 있다.

\[\Gamma (a) = (a-1)!\]

2) 기댓값

\(E(X) = \frac{a}{\lambda}\)

3) 분산

\(Var(X) = \frac{a}{\lambda^{2}}\)

3. 카이 제곱 분포

정규분포에서 추출한 독립적인 표본의 제곱을 합하여 구해지는 분포이다.
주로 관측값들의 제곱을 합하여 구해진다. 자유도에 따라 다양한 모양을 가지기 때문에 자유도가 무엇보다 중요한데 자유도는 표본의 개수에 의해 결정되며 자유도가 작을 수록 카이제곱 분포의 분산이 커진다.
제곱에 대한 분포이기 때문에 항상 양수이며, 오른쪽으로 꼬리가 긴 형태를 따른다.

$Z_{1},Z_{2},…Z_{v}$가 독립적인 표준정규분포를 따르고 X가 자유도 v인 카이제곱 분포를 따를때 (X ~ $\chi(v)$) 카이제곱확률변수 X는 다음과 같다.

\[X = \sum_{v}^{i=1}Z^{2}_{i}\]

1) 확률 밀도 함수

카이제곱분포의 확률 밀도 함수는 아래와 같이 정의된다.

\[f(x) = \chi^{2}(v) = \frac{x^{\frac{v}{2}-1}e^{-\frac{x}{2}}}{2^{\frac{v}{2}}\Gamma(\frac{v}{2})}\]

여기서 x는 확률변수의 값이며, v는 자유도를 나타내며 $\Gamma(\frac{v}{2})$는 감마 함수에 v/2를 넣었을때 값이다.

2) 기댓값

\(E(X) = v\)

3) 분산

\(Var(X) = 2v\)

참고자료

This post is licensed under CC BY 4.0 by the author.