선형 회귀에서 오차항은 3가지를 가정한다.
- 독립성
- 등분산성
- 정규분포
그런데 보통 독립성이 성립하지 않는 경우가 많이 존재한다.
이 때 표준화 잔차를 이용한다.
내표준화 잔차
$$ \frac{e_{i}}{\sigma\sqrt{1-h_{ii}}} $$
하지만 보통 $\sigma^{2}$ 의 값은 알지 못하기 때문에(미지의 수) 대신 $s^{2}$를 사용하는 경우가 많다.
그래서 $ r_{i} $ = $ \frac{e_{i}}{s \sqrt{1-h_{ii}}} $ 를 사용하고 내 표준화 잔차(internally studentized residual)이라고 부른다.
흔히 통계 패키지에서 사용하는 표준화 잔차는 내 표준화 잔차를 이야기한다.
$ |r_{i}|$가 큰 경우 이상치(Outlier)라고 한다.
이를 판정하기 위해서는 오차항 $\epsilon_{i}$가 정규분포를 따른다는 가정하에서 $\frac{e_{i}}{\sigma\sqrt{1-h_{ii}}}$은 표준정규분포를 따르지만 $ \frac{e_{i}}{s \sqrt{1-h_{ii}}} $은 표준정규분포를 따르지 않는다.
정확하게 $ \frac{{r_{i}}^2}{(n-p)} $ 가 베타분포 Beta( $\frac{1}{2}$, $\frac{n-p-1}{2}$) 를 따른다고 알려져 있다.
외 표준화 잔차 (exterally standarized residual)
만약 특정한 $Y_{i}$가 이상점일 경우 잔차 $e_{i}$가 커지게 되지만 동시에 $Y_{i}$가 s값에도 영향을 미쳐 s가 커지게 되므로 내 표준화 잔차로 이상점 $Y_{i}$를 찾아내지 못할 수 있다.
따라서 Y_{i} 의 최소제곱 편차를 제외한 s, $s_{(i)}$를 사용한다.
$ {r_{i}}^{*} $ = $ \frac{e_{i}}{ {s_{(i)}} \sqrt{1-h_{ii}}} $
$ {s_{(i)}}^2 $ = $s^{2} \times \frac{n-p-{r_{i}}^2}{n-p-1}$ 을 만족한다. (증명은 길다..)
'수학&통계학 > 회귀분석' 카테고리의 다른 글
가변수를 이용한 회귀분석 (0) | 2023.04.07 |
---|---|
최소제곱법은 왜 쓸까? (0) | 2022.11.05 |
오차항(error) vs 잔차(residual) (0) | 2022.11.05 |
회귀분석은 무엇일까? (0) | 2022.11.05 |
댓글