GRP의 hyperparameter learning에 대해서 질문 드립니다 인공지능 및 기계학습 심화 : edwith

인공지능 및 기계학습 심화

KAIST 산업및시스템공학과 문일철 교수

http://kooc.kaist.ac.kr/aiml-adv/forum/117595

HWT 2022.02.15

안녕하세요. 강의를 듣던 도중 hyperparameter learning에서 궁금한 것이 생겨서 질문 드립니다.

먼저, GPR 6~8강에서 제가 이해한 내용은

Multivariate Gaussian distribution인 P(T)를 계산하고나면, 이 분포로부터 샘플링을 하는 것 자체가 이미 Regression에 해당한다고 생각하였습니다. 즉, P(T)에서 1개의 샘플을 샘플링하였을 때 나오는 T=(t1,t2,...,t101)의 값이, 우리의 GPR 모델이 X=(x1,x2,...,x101)이라는 input에 대응하는 예측된 output값이라고 생각하였습니다. Linear regression에 비유하자면, P(T)에서 T=(t1,t2,...,t101)를 얻어낸 상황이 y=ax+b라는 모델에서 X=(x1,x2,...,x101)이라는 input에 대해 T=(ax1+b,ax2+b,...,ax100+b)의 값을 얻어낸 상황과 같다고 이해하였습니다. 따라서, 우리가 이미 알고있는 관측한 T값과 P(T)에서 샘플링한 T값을 이용하여, hyperparameter인 theta0,1,2,3,beta를 optimize시키면 최종적으로 완성된 GPR 모델을 얻을 수 있다고 생각하였습니다. 따라서, 이후 7강에서 P(t_N+1|T_N)을 계산하는 과정은 앞의 과정에서 완성된 GPR 모델로부터, 새로운 t_N+1값을 예측하기 위한 과정일 것이라고 생각하였습니다.

때문에, 실제로 optimal hyperparameter를 계산할 때도, 측정값 T와 P(T)에서 sampling한 T의 차이가 minimize되도록 하거나, P(T)의 loglikelihood가 maximize되는 방향으로 learning을 함으로써 optimal hyperparameter의 값을 계산할 수 있을 것이라고 생각하였습니다. 그러나, hyperparameter learning강의에서 교수님께서 제시해주신 코드에서는 P(t_N+1|T_N)의 loglikelihood를 maximize하도록 디자인하셨던데 그 이유가 잘 이해되지 않아서 질문 남깁니다. 확인해 주시면 대단히 감사드리겠습니다.

인공지능 및 기계학습 심화

comment