통계학 - 확률변수, 확률분포, 기댓값
1. 확률 변수(Random variable)
표본공간에서 정의된 함수, 즉 표본 공간의 각 단위사건에 실 수 값을 부여하는 함수이다. 흔히들 X,Y,Z등으로 표현한다.
이렇게 이야기하면 잘 와닿지 않는데, 예를 들어보자 주사위를 던졌을 때 나오는 값의 합을 확률 변수 X라고 둔다면
한번 던졌을 때 X=1,2,3,4,5,6 일 것이고, 두번 던지면 X=2,3,4,5,…,12가 될 것이다.
이렇게 미리 정의해두면 표기와 계산상의 편의를 추구할 수 있다.
이러한 확률 변수는 두 가지 유형으로 분류 할 수 있다.
1) 이산 확률 변수(Discrete Probability Variable)
확률 변수 X가 취할 수 있는 값이 유한 개 또는 자연수와 일대일 대응이되는 무한 개일 경우 즉 셀수 있는 경우, 확률 변수 X를 이산확률변수라 한다.
2) 연속 확률 변수(Continuous Probability Variable)
확률 변수 X가 이산적이지 않은 연속적인 값을 가질 경우 연속 확률 변수라고 한다. 한점에서 확률은 0이므로 이 경우 구간으로 표기한다.
2. 확률 분포(Probability Distribution)
확률 분포는 확률 변수가 가질 수 있는 모든 값과 그 값들이 나타날 확률을 나타내는 함수이다.
확률 분포는 확률변수의 동작 방식을 모사하기 때문에 확률 변수의 특성을 이해하고 모집단의 특성을 추론 할 수 있다.
확률 분포는 확률 변수가 가질 수 있는 값에 종속되기 때문에 이산 확률 변수인지 연속 확률 변수에 따라 다르게 나타낼 수 있다.
1) 이산 확률 분포 (Discrete Probability Distribution)
확률 변수가 특정 값을 가질 확률을 확률 질량 함수(Probability Mass Function, PMF)로 나타낸다.
2) 연속 확률 분포 (Continuous Probability Distribution)
확률 변수가 특정 구간에 속할 확률을 확률 밀도 함수(Probability Density Function, PDF)로 나타낸다.
3) 기대값 (expectation, expected value)
확률 변수가 확률 분포에 따라 갖게되는 값에 대한 평균적인 예상값으로 주어진 확률 변수의 가능한 모든 값에 대해 가중 평균(Weighted average)를 구하는 것으로 생각할 수 있다. 확률 변수 X의 기대값은 다음과 같다.
이산형 변수일 때 \(\mu = E(X) = \sum_{i=1}^{k} x_{i}f(x_{i})\)
연속형 변수일 때
\(\mu = E(X) = \int xf(x) dx\)
a. 기대값의 성질
- 상수 a와 b에 대하여 E(a$\pm$bX) = a$\pm$bE(X)
- E(X$\pm$c) = E(X) $\pm$ c
- E(XY) = E(X) $\cdot$ E(Y) (X,Y가 서로 독립일 때)