본문 바로가기
수학&통계학/회귀분석

오차항(error) vs 잔차(residual)

by Alan_Kim 2022. 11. 5.
728x90
반응형

오차항과 잔차에 대해 알아보자

 

'선형' 회귀란?

- 흔히 회귀분석을 공부하면 단순선형회귀모형과 중선형회귀모형을 따로 배우기 때문에 '단순'은 설명변수가 한 개임을 의미함은 잘 알 수 있다.

'선형'은 회귀식이 설명변수의 일차식으로 주어짐을 의미힌다. 정확히 말하면 "선형"은 회귀식이 모수β0  과 β1 의 선형함수로 주어짐을 의미한다고 하는 것이 더욱 정확한 표현이다.

 

 

오차항이란?

회귀계수를 추정하기 위해서는 반응변수 Y와 설명변수 X의 관측값들, 즉 표본이 필요하다. 이 때 이 관측값들은 일반적으로 일직선상에 모두 위치하지는 않는다.(사실 일직선상에 위치하는 것이 거의 없다.)

왜그럴까? Y와 X는 정확한 선형관계를 가지고 있더라도 관측값에는 측정오차가 있을 수 있기 때문이다. 예를 들어 우리가 물리시간에 중력을 측정할 때 항상 중력값이 일정하게 나오지 않는 것을 알 수 있다. 물론 실제로 Y와 X가 정확한 선형관계를 형성하지 않을 수도 있다.

그러므로 이들 오차를 함께 생각하여 회귀식을 다음과 같이 쓸 수 있다.

여기서 i는 전체 n개의 관측값 중 i번째 값을 나타내는 첨자이고 ϵi 는 평균이 0 분산이 σ**2 인 오차를 나타내는 확률변수로 관측값 Yi가 모집단 회귀식으로부터 ϵi만큼 떨어져 있음을 나타낸다. 그리고 각 ϵi (i=1,2, 3, ...n)은 모두 확률적으로 서로 독립이라 가정한다.

오차항 ϵi의 평균이 0이라는 가정에 의하여 모집단 회귀식은 다음과 같이 나타낼 수 있다.

잔차란?

표본을 이용하여 추정된 절편과 기울기를 이용하여 다음과 같은 직선식을 생각할 수 있다.

표본회귀식

위의 식을 표본 회귀식 또는 적합된 회귀식(fitted regression equation)이라 한다.

위의 식으로 예측된 값들은 Y의 실제 관측된 값들과 일치할 수 없는데 이 두 값의 차이를 잔차(residual)라 부르고 ei로 표시한다. 즉 잔차는 다음과 같이 정의된다.

잔차의 정의

  • 잔차는 적합오차(error of fit)로 관측치 $Y_{i}$가 적합된 회귀직선에서 떨어져 있는 정도를 나타낸다.
  • 따라서, 잔차는 양수 또는 음수의 값을 가지는 추정량인데 실제로 모든 잔차들의 합은 0임을 보일 수 있다.
  • $e_{i}$의 n개의 값을 벡터로 표현하면 $e= y-\hat{y}$ 이 된다. e = ($e_{1}, e_{2}, ... , e_{n}$)
  • $\beta$ 의 추정치로 $\hat{\beta}$를 사용하는 것처럼 오차항 $\epsilon_{i}$의 분포 및 등분산에 대한 가정을 $e_{i}$를 이용하여 검토하는 것이다.

 

오차항 vs 잔차

오차항 잔차
관측할 수 없다. 즉 정확한 값을 구할 수 없다. 표본을 이용하여 회귀식이 적합되면 계산할 수 있다.
보통 정규성과 독립성을 가정한다.
(성립하지 않을 때도 있다는 것이다.)
오차항의 정규성과 독립성을 가정하고 회귀진단을 한 값이 잔차이다.
따라서 잔차의 합은 0이다.(평균)
제곱합을 통해 최소제곱법(LSE)을 이용한다. 제곱합이 SSE를 나타낸다.

 

728x90
반응형

'수학&통계학 > 회귀분석' 카테고리의 다른 글

가변수를 이용한 회귀분석  (0) 2023.04.07
표준화 잔차 (standarized residual)  (0) 2023.04.06
최소제곱법은 왜 쓸까?  (0) 2022.11.05
회귀분석은 무엇일까?  (0) 2022.11.05

댓글