Saturday, December 7, 2013 Contextual Bandit in VW Machine Learning Advent Calender 6 日目(Friday, 6 December 2013, 23:20:09 PST)の記事です. Vowpal Wabbit (VW) に組み込まれている "Offline" Contextual bandit module の紹介をします. (簡潔に説明できる気がしないし理解度もそこまで深くないので,難しいことには踏み込まない) k-Armed Bandits は,以下のような問題設定の中で,何度も試行を繰り返すことで Policy を決めて最適な選択を探します: Policy により $k$ 個の arm から 1 つの arm を選択する(i.e. k 個のクリエイティブ・広告画像から 1 個を選択する) 選択した