はてなブックマークアプリ

サクサク読めて、
アプリ限定の機能も多数!

アプリで開く

はてなブックマーク

  • はてなブックマークって?
  • アプリ・拡張の紹介
  • ユーザー登録
  • ログイン
  • Hatena

はてなブックマーク

トップへ戻る

  • 総合
    • 人気
    • 新着
    • IT
    • 最新ガジェット
    • 自然科学
    • 経済・金融
    • おもしろ
    • マンガ
    • ゲーム
    • はてなブログ(総合)
  • 一般
    • 人気
    • 新着
    • 社会ニュース
    • 地域
    • 国際
    • 天気
    • グルメ
    • 映画・音楽
    • スポーツ
    • はてな匿名ダイアリー
    • はてなブログ(一般)
  • 世の中
    • 人気
    • 新着
    • 新型コロナウイルス
    • 働き方
    • 生き方
    • 地域
    • 医療・ヘルス
    • 教育
    • はてな匿名ダイアリー
    • はてなブログ(世の中)
  • 政治と経済
    • 人気
    • 新着
    • 政治
    • 経済・金融
    • 企業
    • 仕事・就職
    • マーケット
    • 国際
    • はてなブログ(政治と経済)
  • 暮らし
    • 人気
    • 新着
    • カルチャー・ライフスタイル
    • ファッション
    • 運動・エクササイズ
    • 結婚・子育て
    • 住まい
    • グルメ
    • 相続
    • はてなブログ(暮らし)
    • 掃除・整理整頓
    • 雑貨
    • 買ってよかったもの
    • 旅行
    • アウトドア
    • 趣味
  • 学び
    • 人気
    • 新着
    • 人文科学
    • 社会科学
    • 自然科学
    • 語学
    • ビジネス・経営学
    • デザイン
    • 法律
    • 本・書評
    • 将棋・囲碁
    • はてなブログ(学び)
  • テクノロジー
    • 人気
    • 新着
    • IT
    • セキュリティ技術
    • はてなブログ(テクノロジー)
    • AI・機械学習
    • プログラミング
    • エンジニア
  • おもしろ
    • 人気
    • 新着
    • まとめ
    • ネタ
    • おもしろ
    • これはすごい
    • かわいい
    • 雑学
    • 癒やし
    • はてなブログ(おもしろ)
  • エンタメ
    • 人気
    • 新着
    • スポーツ
    • 映画
    • 音楽
    • アイドル
    • 芸能
    • お笑い
    • サッカー
    • 話題の動画
    • はてなブログ(エンタメ)
  • アニメとゲーム
    • 人気
    • 新着
    • マンガ
    • Webマンガ
    • ゲーム
    • 任天堂
    • PlayStation
    • アニメ
    • バーチャルYouTuber
    • オタクカルチャー
    • はてなブログ(アニメとゲーム)
    • はてなブログ(ゲーム)
  • おすすめ

    ブラックフライデー

『qiita.com』

  • 人気
  • 新着
  • すべて
  • ゆるふわ強化学習2 - Qiita

    9 users

    qiita.com/short-clawed_otter

    推敲してたら長くなりそうなので、一旦投稿しておきます。 内容 今回は、価値関数を用いた最適行動学習としてQ学習、SARSA、Expected SARSAを説明します。それらの導入として、非同期式価値反復・方策反復を紹介します。上記のアルゴリズム達は、非同期式価値反復・方策反復の確率近似版として理解されます。その後、適格度トレースについて説明します。適格度トレースは、方策反復と価値反復を繋ぐようなダイナミックプログラミングの手法として紹介します。(長くなるので次回にします。)これは、Sutton等の本ではなく、Bertsekas等の本(Neuro-Dynamic Programming)に紹介されています。というより、前回の記事も後者の本を参考にしています。Bertsekas等の新しい本も欲しいのでボスに最近おねだりしました。その本が来たら、記事たちもアップデートするかもしれません。あと、間

    • テクノロジー
    • 2017/02/07 19:34
    • 強化学習
    • DQN
    • 学習
    • ゆるふわ強化学習1 - Qiita

      6 users

      qiita.com/short-clawed_otter

      はじめに 強化学習について日本語で説明したゆるふわ入門があればいいなと思ったので書きます。ちょっと冗長だったので、簡潔にしました。 重要な注意点として、今回の記事では、環境のモデル(MDPの全ての要素)が分かっている場合を扱います。後に環境のモデルが不明な場合を扱いますが、そのための数学的なバックグラウンドとなるものが今回の記事で扱われます。 強化学習とは 強化学習が何かについては、たくさんの人がゆるふわな紹介を行っているので、飛ばします。代わりに、数学的な定義を説明します。 マルコフ決定過程(MDP) 強化学習において、環境の定義が必要となる。この環境の定義には、通常、マルコフ決定過程またはMarkov(ian?) Decision Process(MDP)を用いる。 MDPは5-tuple $(\mathcal{S}, \mathcal{A}, p, r, \gamma)$によって定ま

      • テクノロジー
      • 2017/01/22 10:00

      このページはまだ
      ブックマークされていません

      このページを最初にブックマークしてみませんか?

      『qiita.com』の新着エントリーを見る

      キーボードショートカット一覧

      j次のブックマーク

      k前のブックマーク

      lあとで読む

      eコメント一覧を開く

      oページを開く

      はてなブックマーク

      • 総合
      • 一般
      • 世の中
      • 政治と経済
      • 暮らし
      • 学び
      • テクノロジー
      • エンタメ
      • アニメとゲーム
      • おもしろ
      • アプリ・拡張機能
      • 開発ブログ
      • ヘルプ
      • お問い合わせ
      • ガイドライン
      • 利用規約
      • プライバシーポリシー
      • 利用者情報の外部送信について
      • ガイドライン
      • 利用規約
      • プライバシーポリシー
      • 利用者情報の外部送信について

      公式Twitter

      • 公式アカウント
      • ホットエントリー

      はてなのサービス

      • はてなブログ
      • はてなブログPro
      • 人力検索はてな
      • はてなブログ タグ
      • はてなニュース
      • ソレドコ
      • App Storeからダウンロード
      • Google Playで手に入れよう
      Copyright © 2005-2025 Hatena. All Rights Reserved.
      設定を変更しましたx