본문 바로가기
수학&통계학/회귀분석

표준화 잔차 (standarized residual)

by Alan_Kim 2023. 4. 6.
728x90
반응형

 

선형 회귀에서 오차항은 3가지를 가정한다.

  • 독립성
  • 등분산성
  • 정규분포

그런데 보통 독립성이 성립하지 않는 경우가 많이 존재한다.

이 때 표준화 잔차를 이용한다.

 

내표준화 잔차

$$ \frac{e_{i}}{\sigma\sqrt{1-h_{ii}}} $$ 

하지만 보통 $\sigma^{2}$ 의 값은 알지 못하기 때문에(미지의 수) 대신 $s^{2}$를 사용하는 경우가 많다.  

그래서 $ r_{i} $ = $ \frac{e_{i}}{s \sqrt{1-h_{ii}}} $ 를 사용하고 내 표준화 잔차(internally studentized residual)이라고 부른다.

흔히 통계 패키지에서 사용하는 표준화 잔차는 내 표준화 잔차를 이야기한다.

 

$ |r_{i}|$가 큰 경우 이상치(Outlier)라고 한다.

이를 판정하기 위해서는 오차항 $\epsilon_{i}$가 정규분포를 따른다는 가정하에서 $\frac{e_{i}}{\sigma\sqrt{1-h_{ii}}}$은 표준정규분포를 따르지만  $ \frac{e_{i}}{s \sqrt{1-h_{ii}}} $은 표준정규분포를 따르지 않는다.

정확하게 $ \frac{{r_{i}}^2}{(n-p)} $ 가 베타분포 Beta( $\frac{1}{2}$, $\frac{n-p-1}{2}$) 를 따른다고 알려져 있다.

 

 

외 표준화 잔차 (exterally standarized residual)

만약 특정한 $Y_{i}$가 이상점일 경우 잔차 $e_{i}$가 커지게 되지만 동시에 $Y_{i}$가 s값에도 영향을 미쳐 s가 커지게 되므로 내 표준화 잔차로 이상점 $Y_{i}$를 찾아내지 못할 수 있다.

따라서 Y_{i} 의 최소제곱 편차를 제외한 s, $s_{(i)}$를 사용한다.

$ {r_{i}}^{*} $ = $ \frac{e_{i}}{ {s_{(i)}} \sqrt{1-h_{ii}}} $

 

$ {s_{(i)}}^2 $ = $s^{2} \times \frac{n-p-{r_{i}}^2}{n-p-1}$ 을 만족한다. (증명은 길다..)

728x90
반응형

'수학&통계학 > 회귀분석' 카테고리의 다른 글

가변수를 이용한 회귀분석  (0) 2023.04.07
최소제곱법은 왜 쓸까?  (0) 2022.11.05
오차항(error) vs 잔차(residual)  (0) 2022.11.05
회귀분석은 무엇일까?  (0) 2022.11.05

댓글