タグ

2013年11月23日のブックマーク (3件)

  • バンディットアルゴリズム入門と実践

    東京大学 松尾研究室が主催する深層強化学習サマースクールの講義で今井が使用した資料の公開版です. 強化学習の基礎的な概念や理論から最新の深層強化学習アルゴリズムまで解説しています.巻末には強化学習を勉強するにあたって有用な他資料への案内も載せました. 主に以下のような強化学習の概念やアルゴリズムの紹介をしています. ・マルコフ決定過程 ・ベルマン方程式 ・モデルフリー強化学習 ・モデルベース強化学習 ・TD学習 ・Q学習 ・SARSA ・適格度トレース ・関数近似 ・方策勾配法 ・方策勾配定理 ・DPG ・DDPG ・TRPO ・PPO ・SAC ・Actor-Critic ・DQN(Deep Q-Network) ・経験再生 ・Double DQN ・Prioritized Experience Replay ・Dueling Network ・Categorical DQN ・Nois

    バンディットアルゴリズム入門と実践
  • 困っている人の情報発信力が低すぎると思う

    私は現在起業準備中で、どんな問題を解決すればよいかを考えている。 世の中には困っている人がいっぱいいるのは自明だろう。 なのに、私がいくら調べても「この問題を解決してほしい!」と書かれたブログやツイートが全然見つからない。 世の中には困っている人がいるのと同じく、起業してみんなが抱いている問題を解決したい人が大勢いるのに、そういった人達はどうでもいいプロダクトを作って時間を無駄にしている。 これは当にもったいない。困っている人は無責任でいいから、「私たちはこんな問題を抱えています!誰か解決して!」と情報発信してほしい。 できればより具体的な方が助かる。 「お金がないから仕事がほしい!」よりも 「仕事を探すときにハローワークの人は役に立たないからなんとかして!」よりも 「もっと便利なお仕事紹介サービスが欲しい!」の方が誰かが解決してくれる可能性は高まる。 困っている人が一番問題を認識してい

    困っている人の情報発信力が低すぎると思う
    sabro
    sabro 2013/11/23
    QAサイトにいくらでもあるよね
  • 一人で何かを考える時、みんなどうしてる?

    みんな一人で何かを考える時ってどうやっているのだろうかとふと気になった。 私の場合は一人で考えるときは、常に誰かに語りかけるように考える。具体的には壁のない(認識できない)空間の中で、椅子に座ったマネキンのようなものに向かって、ぐるぐる歩き回りながら演説したり語りかけたりする。マネキンの顔には知人の写真が貼られている感じかな。マネキンが何かを話してくることはない。私が一方的に何かを常に話している。ときにはマネキンは複数人固まっているケースがある。まあ実際には個々で説明したようなビジュアルが当に視覚的に浮かぶわけではないけど、自分の頭のなかの有り様を変換するとこういう表現がしっくりくる。意図してこうしているわけではなくて、その考えを話す他者を想定しないと一人で考えをまとめることができないので自然とそうなる。当に誰かと会話しているときはそうならない。 なんでこんなことを書いたのかというと、

    一人で何かを考える時、みんなどうしてる?
    sabro
    sabro 2013/11/23
    こういう場合は?これ使ったら?とか自分に質問して、自分がそれに答える感じ。質問形式というのが大事で、新しいことを考えるということは今知らないことを考えることなので、最初は答えがなく質問になる