並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 19 件 / 19件

新着順 人気順

深層強化学習の検索結果1 - 19 件 / 19件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

深層強化学習に関するエントリは19件あります。 機械学習AI強化学習 などが関連タグです。 人気エントリには 『AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃』などがあります。
  • AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃

    AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃 2020.10.08 Updated by Ryo Shimizu on October 8, 2020, 11:13 am JST 「最近のAIがすごい」と言われてからもう6年ほどが経過した。 なかでも人目を引いたのは、なんといっても2016年のAlphaGoだろう。最難関ゲームの一つと言われる囲碁において、人間のトップ棋士に対しAIが圧勝したのである。 これは「深層強化学習」というAIだが、実際のところ、「深層強化学習」を実用的に利用した例はまだ少ない。 多くのAIベンチャーやAIベンダーが扱う「AI」技術は、古典的な統計解析か、時折ニューラルネットを使っているくらいで、「深層学習」ではあっても「深層強化学習」とは完全に別物である。ラジオもコンピュータも同じ電気で動くものだが別物であるのと同じだ。 深層強化学

      AIの想像力が人間を超えるとき。深層強化学習のブレイクスルー、D3RLの衝撃
    • 強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)

      Sep 14, 2020Download as PPTX, PDF199 likes331,155 views 東京大学 松尾研究室が主催する深層強化学習サマースクールの講義で今井が使用した資料の公開版です. 強化学習の基礎的な概念や理論から最新の深層強化学習アルゴリズムまで解説しています.巻末には強化学習を勉強するにあたって有用な他資料への案内も載せました. 主に以下のような強化学習の概念やアルゴリズムの紹介をしています. ・マルコフ決定過程 ・ベルマン方程式 ・モデルフリー強化学習 ・モデルベース強化学習 ・TD学習 ・Q学習 ・SARSA ・適格度トレース ・関数近似 ・方策勾配法 ・方策勾配定理 ・DPG ・DDPG ・TRPO ・PPO ・SAC ・Actor-Critic ・DQN(Deep Q-Network) ・経験再生 ・Double DQN ・Prioritized E

        強化学習の基礎と深層強化学習(東京大学 松尾研究室 深層強化学習サマースクール講義資料)
      • サマースクール’20:深層強化学習 | Deep Learning JP

        本講座は、Deep Learningを用いた強化学習に特化した全6回の講義です。東京大学でDeep Learning基礎講座を公開してきた松尾研究室が、深層学習の基礎を習得済みの学生を対象として開講するものです。 深層学習を用いた強化学習の研究・社会実装のスタートラインに立てるレベルの知識・実装力の習得を目指します。離散制御や連続値制御、モデルベース学習などの強化学習の基礎的なアルゴリズムから、sim2real、模倣学習、Control as Inference、世界モデル、まで深層強化学習の種々のトピックをカバーします。講義のみでなく、実践的な演習を通して、効率的に強化学習について手を動かしながら技術を深く理解します。

          サマースクール’20:深層強化学習 | Deep Learning JP
        • DeepMindが深層強化学習を利用してアルゴリズムを改善するAI「AlphaDev」を発表、すでにソートアルゴリズムやハッシュ関数の高速化に成功

          AlphaGoの開発元として有名なGoogle DeepMind社が深層強化学習を応用してさまざまなコンピューティングアルゴリズムを改善するAI「AlphaDev」を発表しました。同時に、AlphaDevを利用してソートアルゴリズムを高速化できたという論文がNatureに掲載されています。 AlphaDev discovers faster sorting algorithms https://www.deepmind.com/blog/alphadev-discovers-faster-sorting-algorithms Faster sorting algorithms discovered using deep reinforcement learning | Nature https://doi.org/10.1038/s41586-023-06004-9 ソートアルゴリズムとは

            DeepMindが深層強化学習を利用してアルゴリズムを改善するAI「AlphaDev」を発表、すでにソートアルゴリズムやハッシュ関数の高速化に成功
          • 深層強化学習AI時代の”人間”の仕事

            深層強化学習AI時代の"人間"の仕事 2022.01.21 Updated by Ryo Shimizu on January 21, 2022, 07:18 am JST 2022年は、AIはあまりニュースの話題にのぼらないだろうと思う。 なぜならば、もはやAIを用いることは当たり前になってきているからだ。 バズワードとしてのAIは2021年で終わった感がある。 一方で、AIの仕事は、うまくいけばいくほど地下に潜る性質がある。 すなわち、競争相手にどうやっているかを探られないように巧妙に隠す必要があるからだ。 次にニュースになるものがあるとすれば、AIがコンシューマ製品に搭載された時だが、たとえば「スマホにAI」は既に入っているのでニュース性がない。「ゲーム機にAI」が入っているのは当たり前であり、「テレビにAI」ももはや新鮮味がない。 アカデミズムの世界では、少し前までは、「ディープラ

              深層強化学習AI時代の”人間”の仕事
            • 東大松尾研、深層強化学習の無料講座 受講学生を募集

              東京大学 松尾豊研究室が、深層強化学習のオンライン無料講座を2月13日にスタートする。深層学習の基礎を習得済みの学生向け。ロボット制御、ゲームAI、物理シミュレーションなどの研究・社会実装のスタートラインに立てるレベルの知識・実装力の習得を目指す。 大学院、大学、高専、専門学校、高校、中学などの学生向け。主に松尾研の院生が講義するが、ソニーの研究開発組織・Sony AIの河本献太氏も招く。 演習を中心に構成された講義を、Webブラウザのみで受講できる。2月13日から3月3日の全6回で、最終課題の発表会を3月末に行う。 受講者は、深層学習の基礎知識を備え,基礎的な実装が自身でできることが条件だ。 関連記事 AI入門の人気講座を日本語化 講師に松尾豊氏 「すべての人のためのAIリテラシー講座」無料公開 AIの基礎が学べる人気の動画講座の日本語版公開。「Coursera」で世界60万人以上が受講

                東大松尾研、深層強化学習の無料講座 受講学生を募集
              • PFN、PyTorchユーザ向けに深層強化学習ライブラリ 「PFRL」を公開 | AI専門ニュースメディア AINOW

                最終更新日: 2021年12月13日 株式会社Preferred Networks(PFN)は、PyTorchユーザー向けの深層強化学習ライブラリ「PFRL(ピーエフアールエル)」を、2020年7月30日にオープンソースソフトウェア(OSS)として公開しました。 PFRLは、PFNが深層学習フレームワークをChainerからPyTorchへ移行してPyTorchコミュニティと連携を強化する一環で、ChainerRLの後継ライブラリとして公開されました。 PFNは2019年12月に深層学習フレームワーク「Chainer」のメジャーアップデートを終了すると発表し、研究開発基盤をFacebook社の「PyTorch」に順次移行しました。 【PFRLの特長】 最新の研究に基づく深層強化学習アルゴリズム・深層強化学習機能が実装。それらを比較したり、組み合わせたりして実験することが可能。 特に重要な9

                  PFN、PyTorchユーザ向けに深層強化学習ライブラリ 「PFRL」を公開 | AI専門ニュースメディア AINOW
                • 深層強化学習(DQN)で学習するFXトレードエージェントを作ってみた - Qiita

                  どうも、オリィ研究所の ryo_grid こと神林です。 こんにちは。 時系列データに対するディープラーニング適用の一例として、深層強化学習(DQN)させたトレードエージェント(まともなパフォーマンスを発揮する)のモデルを作成し、FX自動トレード(のシミュレーション)をするということにトライしてきました。 深層強化学習でのFX自動トレード(のシミュレーション)がうまくいかないのでオレオレ手法を考えた - Qiita 【続】深層強化学習でのFX自動トレード(のシミュレーション)がうまくいかないのでオレオレ手法を考えた - Qiita 【成功】深層強化学習でのFX自動トレード(のシミュレーション)がうまくいかないのでオレオレ手法を考えた - Qiita 【LSTM導入版】深層強化学習でのFX自動トレード(のシミュレーション)がうまくいかないのでオレオレ手法を考えた - Qiita このテーマに

                    深層強化学習(DQN)で学習するFXトレードエージェントを作ってみた - Qiita
                  • 深層強化学習でAIマリオのクリアにチャレンジしてみた - Qiita

                    追記:マリオの全ステージクリアを目指します!(2021/12/30) 深層強化学習で学習したAIマリオで全ステージクリアを目指すプロジェクトをGitHub Pagesで立ち上げました!参加者募集中です! 詳細は以下参照ください 深層強化学習のPyTorchチュートリアルが日本語訳されて…ない! PyTorch勉強中の人にとって助けになるのが公式のチュートリアルです。そんな公式チュートリアル @sugulu_Ogawa_ISID さんが日本語訳して公開してくださっています。 今、深層強化学習に興味津々丸なので、早速確認してみました。 すると… ない! PyTorchのチュートリアル、マリオをプレイするものあって、めっちゃ面白そうなんですよね。というわけで、訳される前のPyTorchの深層強化学習のマリオチュートリアルをやってみました。 ちなみに、PyTorchチュートリアル(日本語翻訳版)の

                      深層強化学習でAIマリオのクリアにチャレンジしてみた - Qiita
                    • 初学者の段階から一歩前に進みたい方に勧めたい「深層強化学習入門」 - Seitaro Shinagawaの雑記帳

                      こんにちは、品川です。本記事は強化学習 Advent Calendar 2021 17日目の記事です。 今回は以前献本いただいた「深層強化学習入門」についてご紹介したいと思います。 www.kyoritsu-pub.co.jp 噂の深層強化学習本を頂いたので拝読しました!概論として基礎知識や問題設定、課題感がギュッとコンパクトにまとまってました。特に7章以降は学習させるための工夫とか実験の作法だとか重要な点がさらっと詰め込まれてて勉強になりました。分厚い本と組合せて行ったり来たり読み進めると良さそうです pic.twitter.com/3nIEoQmGkE— Seitaro Shinagawa (@sei_shinagawa) 2021年4月14日 オレンジと黒白の装丁がカッコよくて素晴らしいです。 目次 前置き 本題:「深層強化学習入門」は誰向けの本? 前置き 強化学習は様々な分野で用い

                        初学者の段階から一歩前に進みたい方に勧めたい「深層強化学習入門」 - Seitaro Shinagawaの雑記帳
                      • “深層学習”ではなく“深層強化学習”が決め手 将棋界最強のAlphaZeroと互角の強さ「dlshogi」の秘密

                        特徴量を入れて効率的に学習をさせる 川島馨氏(以下、川島):私が作っているdlshogiの特徴を説明します。dlshogiでは私個人が趣味でやっていて、Googleみたいな計算資源が大量にあるわけじゃないので、どうやって効率的に学習するかをいろいろ考えて、少し工夫をしています。 主な工夫点は、先ほど盤面の画像を用いるという話があったんですが、そこにもう少し将棋で有効な特徴量を入れています。駒の配置以外にも駒の利きの情報や王手の情報を入れることで、もっと効率的に学習するようにしています。 先ほど少し言ったとおり、やっぱり終盤が少し弱いので、そこをどうやって克服するかを考えて工夫しています。モンテカルロ木探索の中で、終端で“詰め”の探索をしたり、長手数の詰めの探索はdf-pnという別のアルゴリズムで行なったりしています。 強化学習をするときも“詰み”の探索をして、詰みが見つかったらそれを勝ちと

                          “深層学習”ではなく“深層強化学習”が決め手 将棋界最強のAlphaZeroと互角の強さ「dlshogi」の秘密
                        • 深層強化学習入門 2020年度Deep Learning基礎講座「強化学習」

                          深層強化学習入門.2020年6月実施の「Deep Learning基礎講座」強化学習の松嶋担当分の講義資料を再編集したものです.本資料は,資料を作成した松嶋が公開するものであり,他の講義回について,研究室としての公開は予定されていないとのことです.Read less

                            深層強化学習入門 2020年度Deep Learning基礎講座「強化学習」
                          • 東北大、深層強化学習だけで多関節アームの自然な運動パターンの生成に成功

                            東北大学は6月7日、人間の計測データを使わずに、深層強化学習を用いて7自由度の多関節アームの自然なリーチング運動パターンを生成する手法を提案したことを発表した。 同成果は、東北大 大学院工学研究科 ロボティクス専攻の林部充宏教授、同・Han Jihui大学院生(研究当時)らの研究チームによるもの。詳細は、IEEEが発行する「IEEE TRANSACTIONS ON MEDICAL ROBOTICS AND BIONIC」に掲載された。 ヒトの身体の運動制御は、実は数学的には難題だ。意識することなく身体を動かしているが、いくつもの関節があり、なおかつ動かせる方向(自由度)が複数あるものも多いためで、この自由度の多さの問題は、多数の関節の冗長性問題と多数の骨格筋の冗長性問題に起因し、「多自由度空間問題」といわれる。ヒトがどのようなメカニズムで、この多自由度空間問題を解決しているのかという議論は

                              東北大、深層強化学習だけで多関節アームの自然な運動パターンの生成に成功
                            • 深層強化学習により、核融合炉のプラズマ制御に成功 - fabcross for エンジニア

                              イギリスのAI企業DeepMindとスイス連邦工科大学ローザンヌ校(EPFL)は、AI技術のひとつ「深層強化学習」を利用して、核融合炉内の高温プラズマの位置と形状を制御する方法を開発した。EPFLのスイスプラズマセンター(SPC)が保有する可変構成トカマク(TCV)装置を使って、その効果を実証している。研究結果は、2022年2月16日付けの『Nature』に掲載されている。 世界的なエネルギー問題を解決するために、クリーンで尽きることのないエネルギー源が求められている。その候補の1つが核融合だ。恒星の中心で起こる核融合反応を地球上で再現するため、強力な磁場を使って、非常に高温のプラズマをドーナツ型の真空容器に閉じ込めたトカマク型の実験炉が各地で開発されている。SPCのTCVは、19個の磁気コイルを使ってプラズマの構成を変えられる装置だ。 この高温プラズマは本質的に不安定で、核融合プロセスを

                                深層強化学習により、核融合炉のプラズマ制御に成功 - fabcross for エンジニア
                              • 深層強化学習と汎用化が重要、ロボットへの応用が面白い Googleブレイン Shane Gu氏の基調講演「Deep Learning Digital Conference」 - ロボスタ ロボスタ - ロボット情報WEBマガジン

                                「Deep Learning Lab」(DLL)は、マイクロソフトとPFNの協業から生まれたコミュニティで、実社会でのディープラーニング活用を推進している。先端技術を実際のビジネスに応用するべく、技術とビジネスの両面に精通したプロたちが毎月の勉強会や教育活動をベースに、ニーズに合わせた最適な技術を選択して開発した事例や、最新技術動向の情報発信を行い、ソリューション検討を具体的に行えるようにしてきた。 DLLは2020年夏で3周年を迎えた。毎年、開催してきたカンファレンスは、COVID-19の影響で今回はオンラインセミナー形式の「Deep Learning Digital Conference」として、8月1日に行われた。「事例セッション」「技術セッション」「教育セッション」「個人セッション」に分け、ビジネス側からエンジニア側まで幅広い層を対象に、AIの社会実装に向けた30を超えるセッション

                                  深層強化学習と汎用化が重要、ロボットへの応用が面白い Googleブレイン Shane Gu氏の基調講演「Deep Learning Digital Conference」 - ロボスタ ロボスタ - ロボット情報WEBマガジン
                                • 小猫遊りょう(たかにゃし・りょう) on Twitter: "うおぉ、すご、グーグルの研究者たちがAIを使ってAI用のチップを設計してる(深層強化学習を利用してTPUv5を設計)。消費電力、性能、チップ面積などのすべての主要な指標で人間が作成したもの以上のチップフロアプランを6時間以内に自動… https://t.co/lr7ld74Vxb"

                                  うおぉ、すご、グーグルの研究者たちがAIを使ってAI用のチップを設計してる(深層強化学習を利用してTPUv5を設計)。消費電力、性能、チップ面積などのすべての主要な指標で人間が作成したもの以上のチップフロアプランを6時間以内に自動… https://t.co/lr7ld74Vxb

                                    小猫遊りょう(たかにゃし・りょう) on Twitter: "うおぉ、すご、グーグルの研究者たちがAIを使ってAI用のチップを設計してる(深層強化学習を利用してTPUv5を設計)。消費電力、性能、チップ面積などのすべての主要な指標で人間が作成したもの以上のチップフロアプランを6時間以内に自動… https://t.co/lr7ld74Vxb"
                                  • Amazon.co.jp: ゲームから学ぶAI ——環境シミュレータ×深層強化学習で広がる世界 (Tech × Books plus): 西田圭介: 本

                                      Amazon.co.jp: ゲームから学ぶAI ——環境シミュレータ×深層強化学習で広がる世界 (Tech × Books plus): 西田圭介: 本
                                    • 深層強化学習でAIマリオしてみました - karaage. [からあげ]

                                      AIマリオにチャレンジ 以下の記事の続きです。 棒を倒さないクソゲーだとつまらないので、マリオをやってみました。ディープラーニングのフレームワークとして、今回はTensorFlowでなくPyTorchを使っています。PyTorchに関しては以下記事参照ください。 AIでマリオを学習させると、結構賢くなります。 詳しくは、以下Qiita記事に書いています。 まとめ Qiitaに書いた記事の紹介です。 「深層強化学習難しくて分からないなぁ」という人、安心してください、私もさっぱり分かりません(笑)興味がある人は一緒に学んでいきましょう。 ベースとなる基礎知識に関しては、以下のような本がありますので、興味ある方は是非(宣伝です)。 関連記事

                                        深層強化学習でAIマリオしてみました - karaage. [からあげ]
                                      • 『用量反応試験における患者の割り付けの深層強化学習による最適化』というタイトルで統計関連学会連合大会で発表しました - StatModeling Memorandum

                                        ありがたいことに統計関連学会連合大会の招待講演の依頼がありましたので喜んで引き受けました。たくさんの質問ありがとうございました。 発表資料を共有します。一言で言うと、臨床試験において各患者を各用量にどう割り付けるのが良いかを強化学習を用いて求める方法です。性能が良く第2相試験の効率を大きく改善すると思っています。実際の臨床試験でぜひ使ってほしいですし、そのための協力は惜しみません。 用量反応試験における患者の割り付けの深層強化学習による最適化 by @MatsuuraKentaro 元論文はこちらです(open access)。 資料の方は分かりやすさ重視のため、評価シナリオにexponentialモデルが入っていないです。論文の方は欠点を明確にするために入っています。 2024/10/04 追記 Rパッケージがリリースされました!CRANとGitHubにあります。実際の臨床試験へ適用する

                                          『用量反応試験における患者の割り付けの深層強化学習による最適化』というタイトルで統計関連学会連合大会で発表しました - StatModeling Memorandum
                                        1

                                        新着記事