본문 바로가기
머신러닝

[ML_Basic] Decision Boundary

by Alan_Kim 2023. 1. 1.
728x90
반응형

강의 참고

https://kooc.kaist.ac.kr/machinelearning1_17/

 

인공지능 및 기계학습 개론Ⅰ 강좌소개 : edwith

본 강의는 기계 학습에 대한 이론적 지식을 확률, 통계, 최적화를 바탕으로 소개합니다. 이 과정에서 다양한 확률 이론 및 통계 방법론을 설명하며, 최적화 방법을 소개하고, Naiv... - KAIST 산업및

kooc.kaist.ac.kr

 

Optimal classification

 결국 분류(classification) 문제에서는 오류를 최소화 하는 Optimal classification을 원할 것이다.

Optimal predictor of Bayes classifier은 오류(error)를 최소화 하는 함수를 만들면 될 것이다.

$$f^{*} = argmin_{f} P(f(X)  \neq Y) $$

$$\hat{y} = f(X) $$

 

Y (label)이 이진 분류 함수라고 가정하자.

$$f^{*}(x) = argmax_{Y=y}P(Y=y|X=x)$$

※ 여기서 오해할 수 있는게 이진 분류 함수이고 Y를 y(yes)와 n(no)만 있다고 가정하는 것이다. features X = x 일 때 이에 알맞은 함수 f(x) = $\hat{y}$ 이고 $\hat{y}$ = y 일 최대 확률을 $f^{*}(x)$라 하겠다는 것이다.

 

 

 위를 보면 왜 딥러닝에서 linear 함수 뒤에 비선형 함수를 섞는지 조금 알 것 같다.

Decision boundary에서 멀어질 수록 확률의 차이를 뚜렷하게 보여줄 수 있기 때문이다.

P(Y=y|X)는 시그모이드 함수를 닮은 것을 알 수 있다.

 

optimal classifier

$$f^{*}(x) = argmax_{Y=y} P(Y=y|X=x) = argmax_{Y=y} P(X=x|Y=y)P(Y=y)$$

 

우리는 class prior =  P(Y=y)와 Class Conditional Density = P(X=x|Y=y)를 알아야한다.

 

이 값들은 dataset D를 통한 관측값을 통해 얻을 수 있다.

 

728x90
반응형

댓글