gunosy-dm.connpass.com こんにちは。グノシー開発部のアルシャマンです。最近は、KID FRESINOのSalve feat. JJJをよく聴いています。 今日は4/12(水)に開催したGunosy DM #118について紹介します。前回に引き続きこれからの強化学習の1.3~1.5節の輪読と、論文紹介を行いました。 Gunosy DMとこれからの強化学習については、以下のブログ記事で紹介しています。 data.gunosy.io 書籍輪読(これからの強化学習) データ分析部の大曽根と吉田からそれぞれ1.3~1.4節と1.5節についての発表がありました。 1.3節では、MDP(マルコフ決定過程)における価値関数の表現と、それを推定するアルゴリズムについて学びました。具体的には、ある方策πのもとでの行動価値関数について成立する再帰式であるベルマン方程式とSarsaという学習
CNNの学習で大事なOptimizerの性質について整理します。 Optimizerの選択を間違えると、大きく2つの問題点が起こります。 学習速度が遅い 最終的な学習後も本当の最小値に落ち着かない 特に後者は重要です。CNNのようにパラメータ数が多く、しかも対称性が非常に高い状況では、どのパラメータを重点的に変化させて学習を進めるかが重要なポイントとなり、最終的なネットワークの質にまで大きな影響を与えます。 このエントリでは、最新のOptimizerであるAdamの仕組み、およびパラメータ設定による上記2ポイントへの影響について考察します。 Adamの仕組み まずはwikipediaからAdamのパラメータ更新について引用してみたのが以下です。 tは現在のepoch、ωが更新されるパラメータ。◯は各要素ごとの積とのこと。mtやvtもすべて、「各パラメータ毎に」それぞれの値を持っていることが
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く