통계학 - 독립 이표본 검정
독립 이표본 검정
1. 대표본
두 개의 모집단이 있다. 이 두 개의 모집단은 서로 독립이고 각각의 모집단에서 추출한 25개 이상의 표본(대표본)을 아래와 같이 정의했다.
첫번째 모집단에서 $n_{1}$개를 뽑은 표본1
\(X_{1},X_{2},...,X_{n_{1}}\)두번째 모집단에서 $n_{2}$개를 뽑은 표본2
\(Y_{1},Y_{2},...,Y_{n_{2}}\)
표본이 위와 같은 경우 각각 표본의 통계량이 아래와 같다.
- 표본 1 표본평균 : $ \overline{X} = \frac{1}{n_{1}}\sum_{i=1}^{n_{1}}X_{i}$
표본 1 표본분산 : $S_{1}^{2} = \frac{1}{n_{1}-1}\sum_{i=1}^{n_{1}}(X_{i} - \overline{X})^{2}$
- 표본 2 표본평균 : $ \overline{Y} = \frac{1}{n_{2}}\sum_{i=1}^{n_{2}}Y_{i}$
- 표본 2 표본분산 : $S_{2}^{2} = \frac{1}{n_{2}-1}\sum_{i=1}^{n_{2}}(Y_{i} - \overline{Y})^{2}$
다음과 같이 통계량이 정의되었을 때 두 모집단에 대해 비교할 수 있다. 아래는 그 예시이다.
- 도시와 시골 학생간 시력 차이가 있는가?
1) 두 개의 모수의 차에 대한 추론
위와 같은 예시의 모수를 추정하기 위해서는 모수의 차를 구하고 가설을 세운 뒤 해당 귀무가설이 유의 확률 $\alpha$에 대해서 기각 가능한지를 판단하면 된다.
a. 점 추정치
\(\overline{X} - \overline{Y}\)
b. 구간 추정
\(E(\overline{X} - \overline{Y}) = \mu_{1}-\mu_{2}\)
\(Var(\overline{X} - \overline{Y}) = \frac{\sigma_{1}^{2}}{n_{1}} + \frac{\sigma_{2}^{2}}{n_{2}}\)
아래와 같은 경우 중심 극한 정리에 따라 정규 분포를 따른다.
\[\frac{(\overline{X}-\overline{Y})-(\mu_{1}-\mu_{2})}{\sqrt{\frac{\sigma_{1}^{2}}{n_{1}}+\frac{\sigma_{2}^{2}}{n_{2}}}} \to N(0,1)\]모수인 $\sigma$ 값을 알수 없으므로 표본 편차인 s를 사용하면 아래와 같다.
\[\frac{(\overline{X}-\overline{Y})-(\mu_{1}-\mu_{2})}{\sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}}} \to N(0,1)\]따라서 $\mu_{1}-\mu_{2}$에 대한 100 x (1-$\alpha$)% 근사적 신뢰구간은 아래와 같다.
\[(\overline{X} - \overline{Y}) \pm z_{\alpha/2}\sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}}\]c. 가설 수립
귀무 가설이 $H_{0} : \mu_{1} - \mu_{2} = \mu_{0}$에 대해서 아래의 3가지 대립 가설이 가능하다.
여기서 $Z = \frac{(\overline{X} - \overline{Y})-\mu_{0}}{\sqrt{\frac{s_{1}^{2}}{n_{1}}+\frac{s_{2}^{2}}{n_{2}}}}$이고 대표본을 가정할때 기각역의 형태는 다음과 같다.
귀무가설 | 대립가설 | 기각역 | 비고 |
$H_{0} : \mu_{1} - \mu_{2} = \mu _{0}$ | $H_{1} : \mu_{1} - \mu_{2} > \mu _{0}$ | $Z > Z_{\alpha}$ | 단측검정 |
$H_{0} : \mu_{1} - \mu_{2} = \mu _{0}$ | $H_{1} : \mu_{1} - \mu_{2} < \mu _{0}$ | $Z < Z_{\alpha}$ | 단측검정 |
$H_{0} : \mu_{1} - \mu_{2} = \mu _{0}$ | $H_{1} : \mu_{1} - \mu_{2} \neq \mu _{0}$ | $|Z| > Z_{\alpha/2}$ | 양측검정 |
2. 정규 모집단
25개 이하의 소표본에서 아래 3가지 조건을 따르는 모집단 a,b가 있다고 해보자.
- 모집단이 정규 분포를 따른다.
- 모집단이 서로 독립이다.
- 두 모집단의 분산이 같다.
모집단 a의 표본과 통계량은 아래와 같다.
표본 : $ X_{1},X_{2},…,X_{n_{1}}$
표본 평균 : $\overline{X} = \frac{1}{n_{1}}\sum_{i=1}^{n_{1}}X_{i}$
표본 분산 : \(S^{2}_{1} = \frac{1}{n_{1}-1}\sum_{i=1}^{n_{1}}(X_{i}-\overline{X})^{2}\)
모집단 b의 표본과 통계량은 아래와 같다.
표본 : $ Y_{1},Y_{2},…,Y_{n_{2}}$
표본 평균 : $\overline{Y} = \frac{1}{n_{2}}\sum_{i=1}^{n_{2}}Y_{i}$
표본 분산 : \(S^{2}_{2} = \frac{1}{n_{2}-1}\sum_{i=1}^{n_{2}}(Y_{i}-\overline{Y})^{2}\)
두 표본은 서로 독립이라고 할때 우리는 각 모집단의 모수인 평균의 차이를 아래와 같이 추정이 가능하다.
a. 점 추정치
\[\overline{X} - \overline{Y}\]b. 구간 추정
$E(\overline{X}-\overline{Y}) = \mu_{1} - \mu_{2}$
$Var(\overline{X}-\overline{Y}) = \sigma^{2}(\frac{1}{n_{1}}+\frac{1}{n_{2}})$
$\Rightarrow \frac{(\overline{X}-\overline{Y})-(\mu_{1}-\mu_{2})}{\sigma\sqrt{(\frac{1}{n_{1}}+\frac{1}{n_{2}})}} \sim N(0,1)$
$\Rightarrow \frac{(\overline{X}-\overline{Y})-(\mu_{1}-\mu_{2})}{s_{p}\sqrt{(\frac{1}{n_{1}}+\frac{1}{n_{2}})}} \sim t(n_{1}+n_{2}-2)$
여기서 $s_{p}^{2}$는 합동분산(pooled variance)이며 아래와 같이 구한다.
\[\frac{(n_{1}-1)s_{1}^{2}+(n_{2}-1)s_{2}^{2}}{n_{1}+n_{2}-2}\]따라서 $\mu_{1}-\mu_{2}$에 대한 100 $\times (1-\alpha)$% 정확한 신뢰구간은 다음과 같다.
\[\overline{X} - \overline{Y} \pm t_{\alpha/2} s_{p}\sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}\]c. 가설 수립
귀무 가설이 $H_{0} : \mu_{1} - \mu_{2} = \mu_{0}$에 대해서 아래의 3가지 대립 가설이 가능하다. 여기서 $t=\frac{(\overline{X}-\overline{Y})-\mu_{0}}{s_{p}\sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}}$ 일때 기각역의 형태는 다음과 같다.
귀무가설 | 대립가설 | 기각역 | 비고 |
$H_{0} : \mu_{1} - \mu_{2} = \mu _{0}$ | $H_{1} : \mu_{1} - \mu_{2} > \mu _{0}$ | $t > t_{\alpha}$ | 단측검정 |
$H_{0} : \mu_{1} - \mu_{2} = \mu _{0}$ | $H_{1} : \mu_{1} - \mu_{2} < \mu _{0}$ | $t < -t_{\alpha}$ | 단측검정 |
$H_{0} : \mu_{1} - \mu_{2} = \mu _{0}$ | $H_{1} : \mu_{1} - \mu_{2} \neq \mu _{0}$ | $|t| > t_{\alpha/2}$ | 양측검정 |
※ 연습 문제
남녀간의 흡연시작연령을 비교하기 위해 남녀 흡연자 100명씩 임의로 선택하여 흡엽 시작연령의 평균과 표준편차를 구한 결과
남자 : $ \overline{X} = 18.5, s_{1}=5.8$
여자 : $ \overline{Y} = 20.7, s_{2}=6.3$
으로 나타났다. $\mu_{1} - \mu_{2}$에 대한 95% 신뢰구간을 구하고, 남녀간의 흡연시작 연령이 같은지 $\alpha=0.02$에서 검정하라.
해답
- $\mu_{1} - \mu_{2}$에 대한 95% 신뢰구간
\((\overline{X} - \overline{Y}) \pm z_{\alpha/2}\cdot \sqrt{\frac{s^{2}_{1}}{n_{1}}+\frac{s^{2}_{2}}{n_{2}}}\)
\(= (18.5 - 20.7) \pm 1.96\sqrt{\frac{(5.8)^{2}}{100} + \frac{(6.3)^{2}}{100}}\)
\(= (-3.88,-0.52)\)
- $\mu_{1} - \mu_{2}$에 대한 95% 신뢰구간
- 귀무 가설 기각 여부?
귀무 가설 : $H_{0} : \mu_{1} = \mu_{2}$
대립 가설 : $H_{1} : \mu_{1} \neq \mu_{2}$
검정 통계량 \(z = \frac{(\overline{X}-\overline{Y}-0)}{\sqrt{\frac{s^{2}_{1}}{n_{1}}+\frac{s^{2}_{2}}{n_{2}}}} = -2.569\)
\(z_{\alpha/2} = z_{0.1} = 2.33 \Rightarrow |z| > z_{\alpha/2}\)
이 되므로 귀무가설이 기각된다.
- 귀무 가설 기각 여부?