강의 참고
https://kooc.kaist.ac.kr/machinelearning1_17
경험에 의한 확률
압정 던지기
압정을 던졌을 때 압핀이 위에 있는 경우를 T(tail)이라 하고 위에 있는 경우를 H(head)라고 하였을 때
5번 던진 결과
H(head) | H(head) | T(tail) | T(tail) | T(tail) |
이 나왔을 때
P(T) = 3/5
P(H)= 2/5
라 할 수 있다.
Binomial Distribution(이항분포)
사실 이를 이항분포라 부른다.
압정을 던질 때 이전의 결과가 영향을 미치지 않는 소위 '독립적'이라고 말하며 모두 같은 확률을 가진 분포라고 하여 'independent and identically distributed' (iid)라는 조건이 붙는다.
P(H) = $\theta$ 라 가정하고 n=5, H가 나오는 횟수를 $a_{H}=3$이라 했을 때
P(D|$\theta$) = $\theta ^{a_{H}} \times (1-\theta)^{a_{T}}$ 라 쓸 수 있다.
Maximum Likelihood Estimation(MLE)
P(D|$\theta$) = $\theta ^{a_{H}} \times (1-\theta)^{a_{T}}$ 에서 D는 우리가 연속적으로 관측한 데이터를 이야기하며 $a_{H}$ 와 $a_{T}$ 에 영향을 준다.
이 때 이 식이 참일 가능성이 가장 높은 $\theta$를 찾는 과정을 'Maximum Likelihood Estimation(MLE)'라고 한다.$$ \overbrace{\theta} = argmax_{\theta} P(D|\theta) $$
이 때 $\overbrace{\theta}$는 관측 데이터가 나올 확률을 최대화 하는 $\theta$를 나타낸다.
이를 구하는 방법은 $\frac{\partial}{\partial \theta}(a_{H} ln(\theta) + a_{T} ln(1-\theta)) = 0$ 를 만족하는 $\theta$를 구하는 것이다.$$\overbrace{\theta} = \frac{a_{H}}{a_{H} + a_{T}}$$
Hoeffiding's inequality
만약 압정을 더 던져서 총 60번 던졌다고 가정하자.
이 때 Head가 36번 Tail이 24번 나와 P(H) = 3/5, P(T) = 2/5가 똑같이 나왔다고 가정하자.
그러면 이 확률과 적게 던져서 나온 확률과 다른점이 있을까?
이에 대한 대답은 Hoeffiding's inequality에 의해 알 수 있다.
Hoeffiding's inequality는 다음과 같이 나타낸다. $$P( |\widehat{\theta}- \theta^*| \geq \epsilon) \leq 2e^{-2N\epsilon^2}$$
따라서 많이 던지면 N이 커져 Error bound가 작아져 더 안정적이 된다고 할 수 있다.(reduced error)
이는 마르코프 부등식과 체비셰프 부등식을 알면 충분히 증명할 수 있다.
'머신러닝' 카테고리의 다른 글
[ML_Basic] Naive Bayes Classifier (0) | 2023.01.04 |
---|---|
[ML_Basic] Decision Boundary (0) | 2023.01.01 |
[ML_Basic] Decision Tree (의사 결정 나무) (0) | 2023.01.01 |
[ML_Basic] Rule_based machine learning (규칙 기반 기계학습) (0) | 2022.12.31 |
[ML_Basic] 베이지안 확률론 (0) | 2022.12.30 |
댓글