'선형' 회귀란?
- 흔히 회귀분석을 공부하면 단순선형회귀모형과 중선형회귀모형을 따로 배우기 때문에 '단순'은 설명변수가 한 개임을 의미함은 잘 알 수 있다.
'선형'은 회귀식이 설명변수의 일차식으로 주어짐을 의미힌다. 정확히 말하면 "선형"은 회귀식이 모수β0 과 β1 의 선형함수로 주어짐을 의미한다고 하는 것이 더욱 정확한 표현이다.
오차항이란?
회귀계수를 추정하기 위해서는 반응변수 Y와 설명변수 X의 관측값들, 즉 표본이 필요하다. 이 때 이 관측값들은 일반적으로 일직선상에 모두 위치하지는 않는다.(사실 일직선상에 위치하는 것이 거의 없다.)
왜그럴까? Y와 X는 정확한 선형관계를 가지고 있더라도 관측값에는 측정오차가 있을 수 있기 때문이다. 예를 들어 우리가 물리시간에 중력을 측정할 때 항상 중력값이 일정하게 나오지 않는 것을 알 수 있다. 물론 실제로 Y와 X가 정확한 선형관계를 형성하지 않을 수도 있다.
그러므로 이들 오차를 함께 생각하여 회귀식을 다음과 같이 쓸 수 있다.
여기서 i는 전체 n개의 관측값 중 i번째 값을 나타내는 첨자이고 ϵi 는 평균이 0 분산이 σ**2 인 오차를 나타내는 확률변수로 관측값 Yi가 모집단 회귀식으로부터 ϵi만큼 떨어져 있음을 나타낸다. 그리고 각 ϵi (i=1,2, 3, ...n)은 모두 확률적으로 서로 독립이라 가정한다.
오차항 ϵi의 평균이 0이라는 가정에 의하여 모집단 회귀식은 다음과 같이 나타낼 수 있다.
잔차란?
표본을 이용하여 추정된 절편과 기울기를 이용하여 다음과 같은 직선식을 생각할 수 있다.
위의 식을 표본 회귀식 또는 적합된 회귀식(fitted regression equation)이라 한다.
위의 식으로 예측된 값들은 Y의 실제 관측된 값들과 일치할 수 없는데 이 두 값의 차이를 잔차(residual)라 부르고 ei로 표시한다. 즉 잔차는 다음과 같이 정의된다.
- 잔차는 적합오차(error of fit)로 관측치 $Y_{i}$가 적합된 회귀직선에서 떨어져 있는 정도를 나타낸다.
- 따라서, 잔차는 양수 또는 음수의 값을 가지는 추정량인데 실제로 모든 잔차들의 합은 0임을 보일 수 있다.
- $e_{i}$의 n개의 값을 벡터로 표현하면 $e= y-\hat{y}$ 이 된다. e = ($e_{1}, e_{2}, ... , e_{n}$)
- $\beta$ 의 추정치로 $\hat{\beta}$를 사용하는 것처럼 오차항 $\epsilon_{i}$의 분포 및 등분산에 대한 가정을 $e_{i}$를 이용하여 검토하는 것이다.
오차항 vs 잔차
오차항 | 잔차 |
관측할 수 없다. 즉 정확한 값을 구할 수 없다. | 표본을 이용하여 회귀식이 적합되면 계산할 수 있다. |
보통 정규성과 독립성을 가정한다. (성립하지 않을 때도 있다는 것이다.) |
오차항의 정규성과 독립성을 가정하고 회귀진단을 한 값이 잔차이다. 따라서 잔차의 합은 0이다.(평균) |
제곱합을 통해 최소제곱법(LSE)을 이용한다. | 제곱합이 SSE를 나타낸다. |
'수학&통계학 > 회귀분석' 카테고리의 다른 글
가변수를 이용한 회귀분석 (0) | 2023.04.07 |
---|---|
표준화 잔차 (standarized residual) (0) | 2023.04.06 |
최소제곱법은 왜 쓸까? (0) | 2022.11.05 |
회귀분석은 무엇일까? (0) | 2022.11.05 |
댓글