Post

통계학 - 포아송분포, 정규분포

1. 포아송 분포

단위 시간 또는 단위 공간에서 해당 사건이 몇 번 발생 할 것인가를 모델링하는 이산 확률 분포이다.

1) 확률 질량 함수, 평균, 분산

확률변수 X가 평균 m인 포아송 분포를 따를 때 확률질량함수는

\[f(x)=\frac{e^{-m}m^{x}}{x!}, x=0,1,2,...\]

평균과 분산은

\[\mu = \sigma ^{2} = m\]

2) 포아송 분포를 따르기 위한 조건

a. 독립성(Independence)

단위시간 또는 단위공간에서 발생되는 사건의 수는 또 다른 단위시간 또는 단위공간에서 발생되는 사건의 수와 무관하다.

b. 단일성(Lack of clustering)

동시에 두 개 이상의 사건이 발생할 확률은 0에 가깝다.

c. 등발성(Constant rate)

사건의 수 평균 m은 모든 단위시간 또는 단위공간에서 일정하다.

3) 포아송 분포의 특성

이항 분포에서 시행 횟수 n이 매우 크고, 성공확률 p가 매우 작으면 m = np로 수렴하게 되어 포아송 분포와 매우 가까워진다.

\[\binom{n}{x}p^{x}(1-p)^{n-x}\approx \frac{e^{-m}m^{x}}{x!}, x=0,1,2,3,...,n\]

2. 정규 분포

1) 확률 밀도 함수, 평균, 분산

정규 분포의 확률 밀도 함수는 아래와 같다.

\[f(x) = N(\mu, \sigma ^{2}) = \frac{1}{\sqrt{2\pi \sigma ^{2}}}\cdot e^{-\frac{(x-\mu)^{2}}{2\sigma ^{2}}}\]

여기서 $x$는 확률 변수, $\mu$는 평균, $\sigma ^{2}$은 분산이다.

2) 기댓값, 분산

기댓값은 평균과 같다.

\[E(X)=\mu\]

분산은 표준편차의 제곱이다.

\[Var(X)=\sigma ^{2}\]

3) 신뢰구간

흔히들 여론조사에서 나오는 신뢰구간이 이러한 신뢰구간인데 내가 추정하고자 하는 모수가 어느 범위에 속해있는지를 나타내는 값이다.
평균으로부터 좌우로 표준편차 값을 얼마나 더해서 볌위로 잡느냐에 따라 달라진다. 자주 사용되는 확률값은 아래와 같다.

\(P(\mu - 1\sigma < X < \mu + 1\sigma) \approx 68%\)
\(P(\mu - 2\sigma < X < \mu + 2\sigma) \approx 95%\)
\(P(\mu - 3\sigma < X < \mu + 3\sigma) \approx 99.7%\)

4) 표준 정규 분포

평균이 0이고 분산이 1인 정규 분포를 말한다.
X가 정규분포를 따르는 확률 변수일때 표준 정규 분포로 변환된 Z는 아래와 같다.

\[Z = \frac{X-E(X)}{\sqrt{Var(X)}} = \frac{X-\mu}{\sigma}\]

이렇게 변환된 Z값은 평균이 0이고 분산이 1인 표준 정규분포를 따르며 표준화된 변수라고 한다. $Z ~ N(0,1)$과 같이 표기한다.
신뢰 구간 역시 아래와 같이 바뀐다.

\(P(-1 < Z < +1) \approx 68.2%\)
\(P(-2 < Z < +2) \approx 95.4%\)
\(P(-3 < Z < +3) \approx 99.7%\)

\(P(-1.64 < Z < +1.64) \approx 90%\)
\(P(-1.96 < Z < +1.96) \approx 95%\)
\(P(-2.57 < Z < +2.57) \approx 99%\)

5) 중심 극한 정리

여러 독립적인 확률 변수의 합이 정규분포에 근사적으로 따른다는 원리이다. 즉, 표본의 크기 n이 크면 클수록 분포는 정규분포에 가깝게 수렴하며 n이 30 이상일 때 중심 극한 정리를 이용할 수 있다.

참고자료

This post is licensed under CC BY 4.0 by the author.