통계학 - 회귀분석 개요
회귀분석
1. 개요
간단하게 말하자면 원인과 결과간에 어떤 상관관계가 있는지 추정하는 것이다.
수학으로 따지자면 함수이며, 입력값과 출력값이 주어졌을때 어떤 함수인지 추정하는 것이다.
단, 특정 수학 공식과 같이 오차없이 명확하게가 아닌 필연적으로 오차를 수반한다는 점이 다르다.
좀 더 명시적으로 명료하게 표현하자면 아래와 같은 형태로 나타낼 수 있다.
\[Y = (X_{1},...,X_{p}) + \varepsilon\]- Y : 반응변수 (Response variable), 종속변수 (Dependent variable)
- $X_{1},…,X_{p}$ : 공변량, 설명변수 (covariates)
- $\varepsilon$ : 오차항(Error term)
- $f(\cdot)$ : 회귀함수 (Regression function)
위의 식을 빗대어 설명하자면 입력값이 설명변수, 출력값이 반응변수이며, 오차값이 붙은 형태인 것을 알수있다.
즉 회귀 분석이란 반응 벼수와 설명 변수를 관측하여 회귀함수를 추정하는 것이라 설명할 수 있다.
이러한 회귀 함수를 추정하는데는 많은 방법이 있다. 그리고 너무 많아서 특정 가정이 필요하다.
예를 들어보자면 입력값이 16이고 출력값이 4인 함수 f가 있다고 하자.
그러면 f가 입력값을 4로 나누는지, 혹은 제곱근을 구하는 함수인지 알 수 없다.
물론 입력값이 추가된다면 좀 더 경우의 수가 줄겠지만 여전히 1개로 단정짓기 어려울 것이다.
따라서 가정을 추가하여 회귀분석을 하게되는데 이러한 가정이 바로 회귀 모형이라는 것이다.
2. 회귀 모형
회귀 모형은 크게 두 분류로 나눈다.
1) 모수 회귀 모형(Parametric regression model)
회귀함수의 형태가 고정된 것을 가정하고 추정을 하는 것을 모수 회귀 모형이라고 하며 형태에 따라 또 종류가 갈리게 된다.
a. 단순선형회귀모형
일차 방정식 형태의 모형이다.
\(f(X) = \beta_{0} + \beta_{1}X\)
b. 다중선형회귀모형
선형 결합 형태로 이루어진 모형이다.
\(f(X_{1},...,X_{p}) = \beta_{0} + \beta_{1}X_{1} + ... +\beta_{p}X_{p}\)
c. 비선형회귀모형
선형 결합이 아닌 형태로 표현된 모형이다.
\(f(X) = \frac{\beta_{0}\cdot X}{\beta_{1}+X}\)
d. k차 다항회귀 모형
선형 결합 형태이되 설명변수가 1에서 k 제곱수로 표현된 모형이다.
\(f(X) = \beta_{0} + \beta_{1}X + \beta_{2}X^{2} + ... + \beta_{k}X^{k}\)
e. 로지스틱 회귀모형
반응변수가 이항분포(성공의 횟수)를 따를 때 사용하는 모형이다. 이 모형에 대해서는 추가적인 포스팅이 있을 예정이다.
d. 로그선형 회귀모형
반응변수가 포아송 분포(사건의 발생 건수)를 따를 때 사용하는 모형이다.
2) 비모수회귀모형(Nonparametric regression model)
회귀 함수의 형태가 구체적으로 고정되어있지 않고 가벼운 가정만 하고 함수의 추정치를 계산하는 방법이다.