본문 바로가기
728x90

수학&통계학/회귀분석5

가변수를 이용한 회귀분석 가변수란? 가변수(Dummy variable, 假變數)란 독립변수를 0과 1로 변환한 변수를 의미한다. (위키백과) 대부분 회귀분석을 할 때 설명변수(독립변수)들이 양적 변수로 주어진 경우가 많았으나 질적변수로 주어지는 경우에도 회귀분석이 적용될 수 있다. 이를 테면 성별, 학년, 원료, 핸드폰 통신사 등 자료가 속하는 범주(category)들을 나타내는 값을 갖는 변수들이 질적변수들의 예인데 이들 변수에 있어서는 평균 등의 측도가 의미가 없으므로 결과의 해석에 주의가 필요하며, 질적변수의 특성에 따른 해석이 요구된다. 예로 영화의 영화 배급사가 'A' 또는 'B'라고 가정하자. 이 배급사의 효과를 함께 분석하려면 배급사를 나타내는 설명변수를 정의하여 회귀분석에 포함시키면 된다. 하나의 가변수가 있는 경.. 2023. 4. 7.
표준화 잔차 (standarized residual) 선형 회귀에서 오차항은 3가지를 가정한다. 독립성 등분산성 정규분포 그런데 보통 독립성이 성립하지 않는 경우가 많이 존재한다. 이 때 표준화 잔차를 이용한다. 내표준화 잔차 $$ \frac{e_{i}}{\sigma\sqrt{1-h_{ii}}} $$ 하지만 보통 $\sigma^{2}$ 의 값은 알지 못하기 때문에(미지의 수) 대신 $s^{2}$를 사용하는 경우가 많다. 그래서 $ r_{i} $ = $ \frac{e_{i}}{s \sqrt{1-h_{ii}}} $ 를 사용하고 내 표준화 잔차(internally studentized residual)이라고 부른다. 흔히 통계 패키지에서 사용하는 표준화 잔차는 내 표준화 잔차를 이야기한다. $ |r_{i}|$가 큰 경우 이상치(Outlier)라고 한다. 이를 판.. 2023. 4. 6.
최소제곱법은 왜 쓸까? # 최소제곱법(method of least squares)의 정의 오차를 작게하는데 있어서 모든 점에서 오차의 값을 최소화할 수 없고 오차의 크기를 "전체적"으로 작게 하는 방법을 선택하여야 한다. 이러한 방법들중 가장 널리 사용되는 것은 각 오차의 제곱의 합을 최소로 하는 회귀식을 구하는 방법으로 최소제곱법을 많이 사용한다. ## 정규방정식 위의 식을 β0, β1에대해서 각각 편미분 한 후 식을 정리하면 두 식을 얻을 수 있는데 이 두식을 정규방정식이라 한다. # 최소제곱법의 역사 최소제곱법은 프랑스의 수학자 르장드르(Legendre)에 의해 1805년에 처음 사용되었다. # 최소절대편차추정량(Least absolute deviation estimator) 최소제곱법과 다른기준으로 오차에 대해 구하는 .. 2022. 11. 5.
오차항(error) vs 잔차(residual) '선형' 회귀란? - 흔히 회귀분석을 공부하면 단순선형회귀모형과 중선형회귀모형을 따로 배우기 때문에 '단순'은 설명변수가 한 개임을 의미함은 잘 알 수 있다. '선형'은 회귀식이 설명변수의 일차식으로 주어짐을 의미힌다. 정확히 말하면 "선형"은 회귀식이 모수β0 과 β1 의 선형함수로 주어짐을 의미한다고 하는 것이 더욱 정확한 표현이다. 오차항이란? 회귀계수를 추정하기 위해서는 반응변수 Y와 설명변수 X의 관측값들, 즉 표본이 필요하다. 이 때 이 관측값들은 일반적으로 일직선상에 모두 위치하지는 않는다.(사실 일직선상에 위치하는 것이 거의 없다.) 왜그럴까? Y와 X는 정확한 선형관계를 가지고 있더라도 관측값에는 측정오차가 있을 수 있기 때문이다. 예를 들어 우리가 물리시간에 중력을 측정할 때 항상 중력.. 2022. 11. 5.
728x90