728x90
반응형
선형 회귀에서 오차항은 3가지를 가정한다.
- 독립성
- 등분산성
- 정규분포
그런데 보통 독립성이 성립하지 않는 경우가 많이 존재한다.
이 때 표준화 잔차를 이용한다.
내표준화 잔차
하지만 보통 σ2 의 값은 알지 못하기 때문에(미지의 수) 대신 s2를 사용하는 경우가 많다.
그래서 ri = eis√1−hii 를 사용하고 내 표준화 잔차(internally studentized residual)이라고 부른다.
흔히 통계 패키지에서 사용하는 표준화 잔차는 내 표준화 잔차를 이야기한다.
|ri|가 큰 경우 이상치(Outlier)라고 한다.
이를 판정하기 위해서는 오차항 ϵi가 정규분포를 따른다는 가정하에서 eiσ√1−hii은 표준정규분포를 따르지만 eis√1−hii은 표준정규분포를 따르지 않는다.
정확하게 ri2(n−p) 가 베타분포 Beta( 12, n−p−12) 를 따른다고 알려져 있다.
외 표준화 잔차 (exterally standarized residual)
만약 특정한 Yi가 이상점일 경우 잔차 ei가 커지게 되지만 동시에 Yi가 s값에도 영향을 미쳐 s가 커지게 되므로 내 표준화 잔차로 이상점 Yi를 찾아내지 못할 수 있다.
따라서 Y_{i} 의 최소제곱 편차를 제외한 s, s(i)를 사용한다.
ri∗ = eis(i)√1−hii
s(i)2 = s2×n−p−ri2n−p−1 을 만족한다. (증명은 길다..)
728x90
반응형
'수학&통계학 > 회귀분석' 카테고리의 다른 글
가변수를 이용한 회귀분석 (0) | 2023.04.07 |
---|---|
최소제곱법은 왜 쓸까? (0) | 2022.11.05 |
오차항(error) vs 잔차(residual) (0) | 2022.11.05 |
회귀분석은 무엇일까? (0) | 2022.11.05 |
댓글