안녕하세요, 공부를 하다가 헷갈리는 부분이 있어 질문드립니다.
UCB1 알고리즘, Bayesian UCB 알고리즘, Thompson sampling 알고리즘 무엇이
deterministic policy, stochastic policy인가요?
bayesian UCB와 thompson sampling 는 확률값을 계산하긴 하지만 맨 마지막에 argmax로 deterministic 하게
다음 액션을 고르기 때문에, deterministic policy라고 생각해서 세 알고리즘 모두 deterministic policy라고 생각했는데요,
제 생각이 맞나요?
comment