MLE 관련 질문드립니다. 인공지능 및 기계학습 개론Ⅰ : edwith

도제로가나라 2023.03.28

안녕하세요 튜터님, 질문이 있어 이렇게 글을 등록하게 되었습니다.

아래의 답변에 기반해 질문을 드리고 싶어서 해당 내용을 가져와두었습니다.

------------------------------------------이는 Q&A 게시판의 다른 튜터님의 답변입니다.-------

먼저 용어 정리를 하자면, $\theta$ 는 데이터를 생성하는 함수의 parameter이고 $D$ 는 해당 함수로 생성된 데이터를 의미합니다.

기계학습의 목적 중 하나는 $D$ 를 잘 설명할 수 있는 함수를 찾아내는 것입니다. 바꿔말하면 적절한 $\theta$ 를 찾아내는 것입니다.

그렇다면 $\theta$ 의 적절성을 판단할 수 있는 기준이 필요한데, 그 기준 중 하나가 Likelihood입니다.

Likelihood는 $p(D|\theta)$ 로 정의하고, 특정 $\theta$ 가 주어졌을 때 $D$ 가 관측될 수 있는 정도를 의미합니다.

우리는 이미 관측된 $D$ 를 가지고 있기 때문에, $D$ 가 관측될 수 있는 정도를 최대한으로 만들어주는 $\theta$ 가 우리가 찾던 $\theta$ 라고 할 수 있습니다.

극단적인 예시로 어떤 $\theta^*$ 에 대하여 $p(D|\theta^*)=1$ 이라면 우리는 $\theta^*$ 를 이용하여 $D$ 를 완벽하게 재생산할 수 있기 때문에 $D$ 를 잘 설명할 수 있는 $\theta$ 라고 할 수 있습니다.

-------------------------------------------------------------------

1. 기계학습의 목적 중 하나가 input값을 통한 output(예측값)이 실제값이 동일하도록, loss를 최소화 하는 함수를 찾아내는 것으로 이해하였기 때문에 기계학습의 목적 중 하나가 $D$ 를 잘 설명할 수 있는 함수, $\theta$ 를 찾는 것임은 이해가 갑니다.

다만, $\theta$ 의 적절성을 판단할 수 있는 기준 중 하나가 Likelihood라고 말씀해주셨는데, 그럼 다른 하나가 Posterior가 되는 것인가요?

2. 관측된 D를 가지고 있는 상황에서 p(D| $\theta$ ), 즉 특정 $\theta$ 가 주어졌을 때 D가 관측될 수 있는 정도를 찾는 이유가 무엇인가요? 사실 D가 주어져 있다면 D를 바탕으로 $\theta$ 를 추정하는 것이(p( $\theta$ |D)) 더 합리적이지 않나요? 현실적인 제약이 존재하기 때문인가요? 만일 그렇다면 $\theta$ 에 대한 prior knowledge가 주어져 있지 않은 상황이기 때문인건가요?

3. MLE는 MAP에 비해 prior knowledge를 사용하지 않기 때문에 부정확할 가능성이 있다고 이해했는데 그 이유가

위의 극단적 예시의 '어떤 $\theta^*$ 에 대하여 $p(D|\theta^*)=1$ 이라면 우리는 $\theta^*$ 를 이용하여 $D$ 를 완벽하게 재생산할 수 있기 때문에 $D$ 를 잘 설명할 수 있는 $\theta$ 라고 할 수 있습니다.'에서 p( $\theta$ )의 pdf중 P( $\theta$ = $\theta^*$ )의 확률은 매우 낮을 수도 있는데 이러한 정보가 없기 때문으로 이해하면 되는건가요?

ex) 압정의 p( $\theta$ )가 특정 값이 많이 나오도록 개조되어 있을수도 있는데 그런 정보를 반영하지 못한다.

4. 또한, MLE 최적점 도출 과정에 있어서 Binomial Dist pmf의 nCx가 제외되어 있는데, 이는 계산상에서 해당 상수 값이 의미가 없기 때문에 제거된 것인가요? -> 다시 고민해보니 pdf라는게 결국 특정 실수값에 대한 확률밀도를 나타내는 것이니, 하나의 Data가 주어져있다는 가정 하에서는 nCx가 필요없겠네요. 이렇게 이해하는게 맞을까요?

많은 질문을 드려 죄송합니다.

감사합니다.

인공지능 및 기계학습 개론Ⅰ

comment