통계학 - 분산, 누적분포함수
1. 분산(Variance)
데이터의 흩어진 정도를 나타내는 통계적 측도이다.
데이터 값과 평균 간의 편차를 제곱한 값들을 평균해서 구한다.
데이터가 아닌 확률변수의 분산은 확률분포에서 확률변수의 변동성으로 확률 변수와 기댓값의 차이를 제곱한 값의 기댓값이다.
분산은 제곱하기 때문에 데이터가 달라진다 따라서, 데이터 변동성을 표현하기 위해서는 분산에 제곱근을 취한 표준편차(Standard Deviation)를 사용한다.
\[\sigma = \sqrt{Var(X)}\]구한 값의 대상이 모집단이냐 표본이냐에 따라서 모분산, 표본분산으로 별도로 정의한다.
1) 분산의 성질
- $Var(X) \geq 0$ : 분산은 0보다 크거나 같다
- $Var(X) = 0$ : 상수항의 분산은 0이다. (고정값이니 당연히 분산은 없다고 볼 수 있다)
- $Var(cX) = c^{2}Var(X)$
- $Var(X\pm Y) = Var(X) + Var(Y)$ : 각 분산의 합차는 각각 분산 합과 같다.
- $Var(aX\pm b) = a^{2}Var(X)$ : 확률 변수에 상수를 곱하고 상수더라거나 빼도 분산은 상수의 제곱만큼 증가한다.
2) 공분산(Covariance)
다른 변수들 사이에서의 선형적 상관관계를 나타내는 것이다.
모집단에서 추출한 특정 표본에서 변수 X,Y가 있을때 아래와 같은 수식으로 나타낼 수 있다.
$S_{XY} = \frac{1}{n-1}\sum_{i=1}^{n}(x_{i}-\overline{x})(y_{i}-\overline{y})$
i변째 X값에서 X값의 평균을 뺀 값에 i번째 Y값에서 Y값의 평균을 뺀값을 곱해서 더하고 표본의 개수 -1 만큼 나누는 것이다.
(이는 표본에서 공분산을 구한 표본 공분산이므로 n-1을 나누었다 모공분산이라면 n을 나누면 된다.)
이러한 공분산은 0에 가까울 수록 두 개의 변수간에 선형적인 관계가 없음을 나타낸다. (단, 비선형적인 관계에 대해서는 알 수 없다.)
공분산이 양수라면 x=y 형태의 꼴이고, 음수라면 y=-x꼴의 형태이다.
요컨대 공분산의 부호로 양의 상관관계인지 음의 상관관계인지 알 수 있다.
※ 참고1 : 만약에 두 개의 변수를 동일한 확률 변수로 둔다면 이는 (해당 확률 변수 - 평균)의 제곱 형태가 되므로 분산이 된다.
※ 참고2 : 상관계수와 공분산의 차이?
공분산은 측정 단위의 영향을 많이 받기 때문에 방향은 알 수 있으나 그 크기는 알 수 없다. 하지만 상관계수의 경우 각각 X의 분산과 Y의 분산 곱의 제곱근으로 나누어주기 때문에 비교적 명확하게 크기를 알 수 있다.
2. 누적분포함수(Cumulative Distribution Function, CDF)
분포함수라고도 불리는 누적 분포 함수는 확률변수가 특정 값보다 작거나 같은 확률을 나타내는 함수이다.
1) 이산 확률 분포의 경우
이산 확률 분포에서의 누적분포 함수는 각 확률 질량 함수의 값들을 누적해서 구한다.
확률 변수가 특정 값 보다 작거나 같을 확률을 해당 값 이하의 모든 확률 질량 함수 값의 합으로 계산한다.
$X_{d}$가 이산형 확률변수일 때 누적분포 함수 F_{d}(x)는
확률 질량 함수 $f_{d}(x)$는 다음과 같다.
\[f_{d}(x) = P(X_{d} = X)\]2) 연속 확률 분포의 경우
연속 확률 분포의 경우 누적 분포 함수는 확률 밀도 함수의 면적을 통해 계산된다.
확률 변수가 특정 값보다 작거나 같을 확률은 해당 값 까지의 확률 밀도 함수의 면적으로 표헌한다.
$X_{c}$가 연속형 확률 변수일때 누적 분포 함수 F_{c}(x)는 아래와 같다.
확률 밀도 함수 $f_{c}(x)$는 다음과 같다.
\[f_{c}(x) = \frac{d}{dx}F_{c}(x)\]누적 분포 함수를 톻해 특정 구간에 대한 확률, 분위수를 계산하거나, 통계적 분석과 추론에 사용된다.