並び順

ブックマーク数

期間指定

  • から
  • まで

121 - 157 件 / 157件

新着順 人気順

強化学習の検索結果121 - 157 件 / 157件

タグ検索の該当結果が少ないため、タイトル検索結果を表示しています。

  • 【強化学習】DQNを解説・実装 - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? この記事は自作している強化学習フレームワーク SimpleDistributedRL の解説記事です。 DQNについては昔記事を書いていますが、知識も更新されているので改めて書いています。 前:Q学習 次:Rainbow DQN(Deep Q-Networks) 略称がネットスラングと重なったのは偶然らしいです。 また、時代背景的に初めて強化学習に深層学習(ニューラルネットワーク)の技術を採用して成果を出したことで有名になった手法となります。 Q学習の一番の問題点は、状態が離散かつ有限状態でしか表現できなかったことです。 例えば以下のマ

      【強化学習】DQNを解説・実装 - Qiita
    • 【Unreal Engine】強化学習を行う方法を調べてみた - Qiita

      目次 1. Unreal Engine上で強化学習を行いたい理由 2. 各種手法の比較 2-1. 内部実行系の手法 以下の4つの方法について紹介します。 ・Python Editor Script Plugin ・UneralEnginePython ・Python Foundation Packages ・Neural Network Inference 2-2. 外部通信系の手法 以下の4つの方法について紹介します。 ・Mind maker ・UE4ML ・ML Adapter ・Learning Agent 3. 結局何を使えばいいのか ※記事中のUEはUnreal Engineの略です。 1. Unreal Engine上で強化学習を行いたい理由 強化学習は、機械学習の一分野であり、エージェントが環境と相互作用しながら、試行錯誤を通じて最適な行動を学習する手法です。ゲームエンジンと

        【Unreal Engine】強化学習を行う方法を調べてみた - Qiita
      • オフライン強化学習④: 拡散モデルの台頭 - どこから見てもメンダコ

        オフライン強化学習における拡散方策の近年の適用例を概観し、tensorflowで実装します。 背景 拡散方策(Diffusion Policy)の登場 模倣学習の大幅な性能向上 Diffusion-QLの衝撃 主要な手法・論文 Diffusion-QL:拡散方策のミニマリストアプローチ IDQL: Implicit Q-Learning+拡散方策 深堀り模倣学習:Using generative AI to imitate human behavior Decision Diffuser :分類器無しガイダンス(CFG)の活用 Tensorflowによる拡散方策の実装 拡散方策 ノイズスケジュール 拡散過程/逆拡散過程 テスト結果 参考文献 オフライン強化学習シリーズ: オフライン強化学習① Conservative Q-Learning (CQL)の実装 - どこから見てもメンダコ オフ

          オフライン強化学習④: 拡散モデルの台頭 - どこから見てもメンダコ
        • 【強化学習初心者向け】シンプルな実装例で学ぶQ学習、DQN、DDQN【CartPoleで棒立て:1ファイルで完結、Kearas使用】 - Qiita

          ※2018年06月23日追記 PyTorchを使用した最新版の内容を次の書籍にまとめました。 つくりながら学ぶ! 深層強化学習 ~PyTorchによる実践プログラミング~ 18年6月28日発売 「倒立振子(棒立て問題)」を、強化学習のQ学習、DQNおよびDDQN(Double DQN)で実装・解説したので、紹介します。 ディープラーニングのライブラリにはKerasを使用しました。 (※追記:17/09/27にHuber関数部分を修正しました) (※追記:17/10/01にQ学習更新のr抜けを修正しました) (※追記:17/10/03にQ学習報酬のrewardを修正しました) (※追記:18/05/16にDDQNのターゲットの更新方法を修正しました) (※追記:18/06/12にDQNのplayとDDQNのターゲットの更新方法を修正しました) (※追記:18/10/20にDDQNの行動選択の

            【強化学習初心者向け】シンプルな実装例で学ぶQ学習、DQN、DDQN【CartPoleで棒立て:1ファイルで完結、Kearas使用】 - Qiita
          • 【書評】ITエンジニアのための強化学習理論入門 - くろたんく雑記帳

            中井さんのITエンジニアのための強化学習理論入門を読んだので、感想。中井さんの書籍は数式や文章のストーリー展開がわかりやすくて、その期待も込みで購入。教育用の書籍になると思うので。 中井さんの新刊気付いてなくて連休中にポチった。 強化学習の導入にはめちゃくちゃいい。練習問題があるのは最高。理解度を測れるので。 pic.twitter.com/OqgD11eAAD— くろたんく@激しく多忙 (@black_tank_top) 2020年7月26日 本書の概要 第1章 第2章 第3章 第4章 第5章 必要な前提知識 おすすめの人 その他参考図書 Pythonで学ぶ強化学習(久保さんの書籍 ) 終わりに お願い(欲しい書籍リスト) 本書の概要 第1章 強化学習の考え方についてはじまり、バンディットアルゴリズムの内容である。いつも中井さんの本を見ているとわかりやすいなぁと思うが、定常状態の平均の求

              【書評】ITエンジニアのための強化学習理論入門 - くろたんく雑記帳
            • 【祝】強化学習ライブラリTF2RL v1.0到達 ~CIやドキュメントサイトなど開発・利用環境の整備~ - Qiita

              1. はじめに 以前紹介した友人が開発しているTensorFlow 2.x 向け強化学習ライブラリTF2RLが、諸々整備してバージョン1.0に到達しました🎉 (いつの間にかスターも300超えていてすごい!) バージョン1.0到達以降も、まだまだ様々な強化学習アルゴリズムを追加しようと開発が進んでいます。(この記事を準備している間にも、v1.1.0が公開されてます。) インストール方法や基本となる使い方は、公式ReadMeや、前の記事を読んでいただければと思うので、この記事では割愛します。 この記事では、私もお手伝いさせてもらって整備したアルゴリズム以外の部分について紹介します。 2. マルチプラットフォームテスト (PR 97) GitHub Actions によって、Windows/macOS/Ubuntu のマルチプラットフォームで、push や pull requestの度にユニッ

                【祝】強化学習ライブラリTF2RL v1.0到達 ~CIやドキュメントサイトなど開発・利用環境の整備~ - Qiita
              • Stable Baselines と Raspberry Pi によるホッケーロボットの強化学習|npaka

                「AI・人工知能EXPO 2020 【秋】」の「ギリア」ブースにて、「Stable Baselines」 と「Raspberry Pi」によるホッケーロボットの強化学習を展示しました。 Webカメラの映像を入力として使って、「Raspberry Pi」上で「Stable Baselines」による推論を行い、ロボットアームの操作して、ホッケーロボットの対戦を実現させています。 今回は、「Stable Baselines」と「Raspberry Pi」によるホッケーロボットの強化学習の作成の流れを紹介します。 【ステップ1】 ロボットアームとホッケー台の選定はじめに、ロボットアームをいろいろ試してみて、KHRシリーズで有名な近藤科学の「KXR-A5」を選びましました。ホッケーするのに十分なサーボ速度、長時間動く耐久性、1台38,000円という値段の安さが決め手になりました。

                  Stable Baselines と Raspberry Pi によるホッケーロボットの強化学習|npaka
                • Unity ML-Agents と toio によるサッカーロボットの強化学習|npaka

                  「AI・人工知能EXPO 2021 【春】」の「ギリア」ブースにて、「Unity ML-Agents」 と「toio」によるサッカーロボットの強化学習を展示しました。 動画を撮ってくれた人がいました。ありがとうございます。 ソニー、強化学習により自律的に動く8台のサッカーロボットを展示。Unity-MLで学習した後、iphone単体で推論を行うらしい。8台の自律ロボット、すごい。 個人的にAI Expoの中で最も面白い展示だった。#AI #Expo #Sony #強化学習 pic.twitter.com/OJRBSnI8Ta — S Choe (@wireless_power) April 9, 2021 「toio」はiPhoneでBluetooth経由で制御されており、1台のiPhoneで8台分の「toio」の推論を行っています。 今回は、「Unity ML-Agents」と「toio

                    Unity ML-Agents と toio によるサッカーロボットの強化学習|npaka
                  • 『「強化学習」を学びたい人が最初に読む本』で強化学習に再入門しました - karaage. [からあげ]

                    強化学習に再入門 日経BP様より『「強化学習」を学びたい人が最初に読む本』を献本いただきました。 「強化学習」を学びたい人が最初に読む本 作者:伊藤 真日経BPAmazon 実は、1年くらい前にも一度強化学習に入門してみようという気になったものの、その後すっかりトーンダウンしていました。この本はそんな自分が強化学習に再入門するとても良いきっかけをくれました。 私がこの本で良いなと思ったポイントを3つ紹介します。 数式は少なめでコードベースで学習・理解できる 深層強化学習に最短で到達できるような書籍の構成 タスクが比較的楽しい 順に説明していきます。 「強化学習」を学びたい人が最初に読む本の書評 数式は少なめでコードベースで学習・理解できる 自分が読んだ強化学習の本は、数式がバンバン出てくるものだったり、逆に割り切って基本の説明とライブラリの使い方に徹している書籍が多かった印象があります。こ

                      『「強化学習」を学びたい人が最初に読む本』で強化学習に再入門しました - karaage. [からあげ]
                    • GLAM:強化学習エージェントとしてのLLM

                      3つの要点 ✔️ 大規模言語モデルを強化学習における方策として捉え,追加学習させる ✔️ 強化学習タスクを言語で表現する環境やプロンプトを開発 ✔️ 大規模言語モデルを強化学習に使用することによって,サンプル効率や汎化性能に向上が見られることがわかった Grounding Large Language Models in Interactive Environments with Online Reinforcement Learning written by Thomas Carta, Clément Romac, Thomas Wolf, Sylvain Lamprier, Olivier Sigaud, Pierre-Yves Oudeyer (Submitted on 6 Feb 2023 (v1), revised 12 May 2023 (this version, v2),

                        GLAM:強化学習エージェントとしてのLLM
                      • 「ScratchでAIを学ぼう ゲームプログラミングで強化学習を体験」感想 - 僕は発展途上技術者

                        「ScratchでAIを学ぼう ゲームプログラミングで強化学習を体験」を読了しました。 元々買おうと思っていたので自分で発売前から予約していたのと、出版社の日経BP様より献本をいただいたので、2冊揃いました。どうもありがとうございます。一冊は CoderDojo 調布用にでもしようかと思っています。 Amazon のページに発売前から掲載されていた書籍の説明や目次を見ていて、だいたい予想はしていたのだが、Scratch を使っているとはいえ、全編なかなか骨太な内容となっています。 よく一緒に購入されている商品としても表示される拙著「Scratchではじめる機械学習 ―作りながら楽しく学べるAIプログラミング」で言えば、上級編としている第5章の「遺伝的アルゴリズムでネコの動きを進化させよう」と同等かそれ以上のレベルの内容を厚くして、しっかりと理論も理解しながら読み進めていこうという内容だ。

                        • 病院の新人育成に効果上げたNECの「模倣学習」、強化学習とどう違うのか

                          「NECが開発した模倣学習AI(人工知能)を活用した結果、経験の浅いスタッフがリハビリテーション介入プログラムを作成する際の正確性が46%向上した」。北原病院グループの亀田佳一広報部責任者兼理学療法士は、スタッフの経験に依存するというリハビリ介入プログラムの作成におけるAI活用の効果をこう語る。北原病院グループはNECが開発したAIを実証導入し、2022年2月28日に成果を発表した。 模倣学習はベテランや専門家の行動を模倣して最適な行動を提案する機械学習モデルの一般的な開発手法だ。NECは同社として初めて、模倣学習に失敗データを活用する「協調的生成方式」に取り組んだ。病院で実用レベルのAI精度を達成した要因の1つに、同方式の適用があるという。 失敗データも活用 今回開発したモデルの目的は、北原病院グループにおけるリハビリ介入プログラムの作成支援だ。このモデルをここでは「計画作成AI」と呼ぶ

                            病院の新人育成に効果上げたNECの「模倣学習」、強化学習とどう違うのか
                          • 巡回セールスマン問題を深層学習と強化学習で解く

                            こんにちは!shu421と言います。 数理最適化 Advent Calendar 2023 の 12 日目です。今回は巡回セールスマン問題 (Traveling Salesman Problem: TSP) を深層学習と強化学習で解く方法を紹介します。最近の動向をざっくり追うだけなので、詳細については各論文を参考にしていただけたらと思います。 目次 巡回セールスマン問題とは 深層学習と強化学習を使う理由 論文紹介 Neural Combinatorial Optimization with Reinforcement Learning Attention, Learn to Solve Routing Problems! Solving combinatorial optimization problems over graphs with BERT-Based Deep Reinforc

                              巡回セールスマン問題を深層学習と強化学習で解く
                            • 【GAIL】逆強化学習とGANを組み合わせた模倣学習アルゴリズムを実装してみる【CartPole】 - Morikatron Engineer Blog

                              こんにちは、エンジニアの竹内です。 以前の記事でDQNに模倣学習の仕組みを取り入れたDeep Q-Learning from Demonstrationsというアルゴリズムを紹介しましたが、模倣学習には他にもいろいろなアプローチが存在します。 特にエキスパートの行動軌跡から環境の報酬関数を推定する逆強化学習(Inverse Reinforcement Learning)という手法を利用したものは模倣学習アルゴリズムの中でも代表的な手法の1つであり、環境からの報酬が得られない場合でも模倣学習を行う事ができます。 そこで今回は逆強化学習を用いた模倣学習アルゴリズムの中でも特に有用な手法である、敵対的生成ネットワーク(Generative Adversarial Network)を組み合わせたGenerative Adversarial Imitation Learning(GAIL)という手法

                                【GAIL】逆強化学習とGANを組み合わせた模倣学習アルゴリズムを実装してみる【CartPole】 - Morikatron Engineer Blog
                              • 第7回 今更だけど基礎から強化学習を勉強する DDPG/TD3編(連続行動空間) - Qiita

                                今回はDDPGを実装してみました。 第6回 PPO編 第8回 SAC編 ※ネット上の情報をかき集めて自分なりに実装しているので正確ではない可能性がある点はご注意ください ※ライブラリはTensowflow2.0(+Keras)を使っています。 コード全体 本記事で作成したコードは以下です。 GoogleColaboratory 追記:自作フレームワークを作成しています。そちらにも実装があります。 DDPG(Deep Deterministic Policy Gradient) DPGは連続行動空間を制御するために考案されたアルゴリズムで、Actor-Criticなモデルを用いて行動価値と方策を学習しますが、方策勾配法を使わずに学習するというちょっと変わった手法になります。 DPGにディープラーニングを適用した手法がDDPGです。 参考 DDPGでPendulum-v0(強化学習, tens

                                  第7回 今更だけど基礎から強化学習を勉強する DDPG/TD3編(連続行動空間) - Qiita
                                • 日本語GPT-2を強化学習(Policy Gradient)でfine-tuningする - Qiita

                                  概要 本記事では言語モデルであるGPT-2を強化学習でfine-tuningしていきます.学習済みのGPT-2は分け隔てない大量の文章で学習されているため,標準的な文章の出力を行うように学習されています.この出力を我々が設定した価値関数などを使って,望む出力に歪められるのではないでしょうか? 具体的に本記事では,日本語版のGPT-2をネガティブな文章ばかり出力するように報酬を設定した強化学習でファインチューニングしていきたいと思います! 関連事項 GPT-2 Transformerベースの自己回帰型の言語モデルで,言語の生成モデルです.自己回帰モデルは単語に対して次の単語を予測する処理を繰り返すことで,文章を生成することができます.単語予測にはGreedySearchやBeamSearch,サンプリングが使用されます.今回はこちらの学習済みモデルを使用させていただいております. 強化学習

                                    日本語GPT-2を強化学習(Policy Gradient)でfine-tuningする - Qiita
                                  • 小猫遊りょう(たかにゃし・りょう) on Twitter: "うおぉ、すご、グーグルの研究者たちがAIを使ってAI用のチップを設計してる(深層強化学習を利用してTPUv5を設計)。消費電力、性能、チップ面積などのすべての主要な指標で人間が作成したもの以上のチップフロアプランを6時間以内に自動… https://t.co/lr7ld74Vxb"

                                    うおぉ、すご、グーグルの研究者たちがAIを使ってAI用のチップを設計してる(深層強化学習を利用してTPUv5を設計)。消費電力、性能、チップ面積などのすべての主要な指標で人間が作成したもの以上のチップフロアプランを6時間以内に自動… https://t.co/lr7ld74Vxb

                                      小猫遊りょう(たかにゃし・りょう) on Twitter: "うおぉ、すご、グーグルの研究者たちがAIを使ってAI用のチップを設計してる(深層強化学習を利用してTPUv5を設計)。消費電力、性能、チップ面積などのすべての主要な指標で人間が作成したもの以上のチップフロアプランを6時間以内に自動… https://t.co/lr7ld74Vxb"
                                    • Amazon.co.jp: ゲームから学ぶAI ——環境シミュレータ×深層強化学習で広がる世界 (Tech × Books plus): 西田圭介: 本

                                        Amazon.co.jp: ゲームから学ぶAI ——環境シミュレータ×深層強化学習で広がる世界 (Tech × Books plus): 西田圭介: 本
                                      • オープンモデル14Bモデルが軽量級トップクラスのgpt-4o-miniを超える実力を証明:最新の強化学習論文と独自手法を組み合わせ、短期間・少量データでの性能向上に成功

                                        オープンモデル14Bモデルが軽量級トップクラスのgpt-4o-miniを超える実力を証明:最新の強化学習論文と独自手法を組み合わせ、短期間・少量データでの性能向上に成功日本語性能を著しく損なうことなく英語能力を微調整に成功。オンプレからクラウドまで、セキュアなグローバルでの企業ニーズに応えるローカルLLM開発を推進。 このたび弊社(Axcxept株式会社(アクセプト、本社:北海道札幌市)は、中国のAI企業が発表した最新かつ高性能モデル「Deepseek R1」に関する研究成果と、弊社がこれまで培ってきたLLM(大規模言語モデル)のトレーニングノウハウを掛け合わせ、わずか2日間・14K規模のデータを使った試作トレーニングを実施しました。その結果、ベースモデルである「Phi-4」を上回る性能を、日英の総合LLM性能ベンチマークである「Japanese MT Bench」や「MT Bench」で

                                          オープンモデル14Bモデルが軽量級トップクラスのgpt-4o-miniを超える実力を証明:最新の強化学習論文と独自手法を組み合わせ、短期間・少量データでの性能向上に成功
                                        • 最近話題になった 強化学習 技術のまとめ|npaka

                                          最近話題になった 強化学習 技術をまとめました。 1. RLHF (Reinforcement Learning from Human Feedback)「RLHF」は、言語モデルを、人間のフィードバックからの強化学習でファインチューニングする手法です。 一般的なコーパスで学習した言語モデルを、複雑な人間の価値観に合わせることができるようになり始めました。最近ではチャットAI「ChatGPT」が「RLHF」の成功例となっています。 2. Decision Transformer「Decision Transoformer」は、言語モデルの次のテキストを予測する仕組みで、オフライン強化学習タスクを解けることを示したAIモデルです。言語モデルによる教師あり学習で強化学習タスクを解きます。 「Multi-Game Decision Transformers」では40以上のAtariゲーム、「Ro

                                            最近話題になった 強化学習 技術のまとめ|npaka
                                          • 最近の言語生成の強化学習 - Seitaro Shinagawaの雑記帳

                                            こんにちは、品川です。本記事は強化学習 Advent Calendar 2021 6日目の記事です。 短いですが、最近の言語生成周りの強化学習関連の話題を取り上げたいと思います。 言語生成周りの強化学習のおさらい(2020年時点での私の理解) 最近の言語生成の強化学習①:REINFORCEもPPOへ徐々に移行中 最近の言語生成の強化学習②:価値ベース?できるよ。そう、事前学習済み言語モデルならね 言語生成周りの強化学習のおさらい(2020年時点での私の理解) 言語生成モデルの訓練にはTeacher forcingを用いる 言語生成で最もよく使われている強化学習手法は、方策勾配法の最も簡単な手法であるREINFORCEアルゴリズムである(他にもActor-criticや、DQNをはじめとする価値ベースの手法などが使われている) REINFORCEでは、生成した文に対してあらかじめ報酬を算出し

                                              最近の言語生成の強化学習 - Seitaro Shinagawaの雑記帳
                                            • 最もシンプルな環境の強化学習を書いてみた - Qiita

                                              概要 最も単純な環境で強化学習を構築してみます.2次元のランダムウォークを参考にして,上下左右に動く点粒子をエージェントと設定します. 今回は離散型の強化学習を前提にしているため,上下左右の同じ加速度から一つを毎ループ選択するような形にします. xyどちらかが-1.0~1.0をはみ出したら終了し,その範囲の正方形の下の辺に当たったら報酬を1与えるとします.他は全部報酬0です. 準備 python = "3.6.8" pytorch = "1.6.0" コード ・エージェント(自身の位置を知覚できない設定) import random import numpy as np import torch import torch.nn as nn import torch.nn.functional as F class Agent(nn.Module): def __init__(self,de

                                                最もシンプルな環境の強化学習を書いてみた - Qiita
                                              • 強化学習を用いたレコメンドを検証してみた件 - Qiita

                                                はじめに 弊社では現在、レコメンドエンジンの高度化を進めています。その取組みの一貫として、強化学習を用いたレコメンドの検証を行いました。本稿ではその取り組みについて、まとめたいと思います。 強化学習とは 機械学習の分野の中でも強化学習は、教師あり学習や教師なし学習とは取り扱う問題の構造が異なります。 教師あり学習は入力と出力(正解ラベル)のペアデータを扱いますが、強化学習は教師なし学習と同様に正解ラベルは扱いません。一方で強化学習の特徴は、正解の代わりに報酬(もしくは罰)を扱います。 また、教師あり学習は入力から出力への変換方法を学習し、教師なし学習はデータに潜む構造や規則性を学習しますが、強化学習はエージェントが環境と相互作用しながら(行動を起こしながら)集めたデータ(環境の状態)を使って高い報酬を得る方策(いわゆるモデル)を学習します。 強化学習のレコメンドへの応用 ここではECサイト

                                                  強化学習を用いたレコメンドを検証してみた件 - Qiita
                                                • 飛び石を落下せず2足歩行、カリキュラムベースの強化学習「ALLSTEPS」

                                                  ブリティッシュコロンビア大学の研究チームが開発した「ALLSTEPS」は、二足歩行シミュレーションにおいて、ランダムに生成される飛び石から落下さず歩行するカリキュラムベースの強化学習法だ。 二足歩行による移動はコンピュータアニメーションやロボット工学の基本的な問題であり、データ駆動型や物理学に基づいた解決策が数多く提案されているが、ランダムな飛び石地形をナビゲートする研究はあまり反映されていない。 本研究ではこの課題に挑戦するため、飛び石における制御ポリシーをDeep reinforcement learning (DRL)を用いてゼロから学習する。ポリシーの能力に応じてタスクの難易度を徐々に上げていくカリキュラム学習を採用。進捗状況に応じて、地形難易度を動的に調整することで学習効率を向上させる。4つの異なるカリキュラムを評価し、それぞれが異なる原理に基づいて学習を進め、カリキュラムなしの

                                                  • 観てもプレイしてもいい、強化学習でキャラが動く新感覚のVR映画

                                                    9月に開催されたベネチア国際映画祭で、AIが制御するキャラクターが登場するVR(実質現実)短編映画が紹介された。映画製作に強化学習を使用した初の事例として、映画製作の未来を垣間見せるものになるかもしれない。 by Will Douglas Heaven2020.10.08 45 21 3 5 四角い顔で3本足のエイリアンが辺りを動き回り、小さな星にはびこっている巨大な植物にたどり着こうとする。だが、植物をかじるたびに禁断の果実が大きくなっていく。突然、植物の重さで全世界がひっくり返り、小さなエイリアンはすべて宇宙空間に放り出される。 急いで! 手を伸ばして捕まえて! トロントの映画スタジオであるトランジショナル・フォーム(Transitional Form)が製作したインタラクティブなVR(実質現実)短編映画「エージェンス(Agence)」は、いかなる興行成績も打ち破ることはないだろう。映

                                                      観てもプレイしてもいい、強化学習でキャラが動く新感覚のVR映画
                                                    • Keras-rlでゲームをプレイする強化学習AIを作る! - Qiita

                                                      概要 pygameでボール反射ゲームを作ったので、このゲームをAIでプレイさせようと思います。 自分で操作しているボール反射ゲーム↓ 環境 windows10 Python(Anaconda) ライブラリインストール AnacondaのCMD.exePromptを起動してcondaとpipで必要なライブラリをインストールしましょう。 conda install tensorflow conda install keras pip install gym pip install keras-rl pip install keras-rl2 Keras-rlとOpenAIgym Keras-rl 深層学習用ライブラリであるkerasを用いて、深層強化学習のアルゴリズムを実装したライブラリ。 OpenAIgym 強化学習アルゴリズムの開発と評価のためのプラットフォーム。 強化学習では「エージェン

                                                        Keras-rlでゲームをプレイする強化学習AIを作る! - Qiita
                                                      • YouTubeで逆強化学習する時代?!ロボットが人間から学ぶために必要なコトとは?

                                                        3つの要点 ✔️ 学習エージェントと教師エージェントのハードウェアが異なる状況下における模倣学習に関する研究 ✔️ 自己教師あり学習を用いて異なる教師エージェントのデモンストレーションを撮影した動画同士の対応関係を捉えることにより、ハードウェアの差異に依存しない概念である「タスクの進捗度合い」に基づく報酬関数を学習する。 ✔️ 人間からロボットへの転移タスクの検証用データセットとしてX-MAJICALを構築し、学習エージェントの装備が未知の場合においても有効な報酬関数を学習できることを示した。 XIRL: Cross-embodiment Inverse Reinforcement Learning written by Kevin Zakka, Andy Zeng, Pete Florence, Jonathan Tompson, Jeannette Bohg, Debidatta Dw

                                                          YouTubeで逆強化学習する時代?!ロボットが人間から学ぶために必要なコトとは?
                                                        • 《日経Robotics》産業用ロボ大手の三菱電機、世界最高性能のロボット向け強化学習手法を開発、通説を覆すアプローチ

                                                          大手産業用ロボットメーカーの三菱電機が、ロボット向けの強化学習で高い性能を実現する新手法を開発した。 既存の深層強化学習アルゴリズムに、三菱電機が考案したモジュールをアドオン(付加)すると、タスクの性能を最大で1.5倍ほど向上させ、学習効率も大幅に向上できた。 2020年7月に開催された機械学習分野のトップカンファレンス「ICML(International Conference on Machine Learning)2020」で発表した。現時点ではまだシミュレータ上で手法の有効性を確認した段階だが、将来的に自社の産業用ロボットに適用することを視野に入れている(図1)。同社によれば、カメラ画像を直接入力するのではなく状態量のみを入力するタイプの手法としては「世界最高性能を実現できた」という。 三菱電機は産業用ロボット向けに、強化学習の性能を向上できる新アルゴリズムを考案した。将来的に自社

                                                            《日経Robotics》産業用ロボ大手の三菱電機、世界最高性能のロボット向け強化学習手法を開発、通説を覆すアプローチ
                                                          • 深層強化学習でAIマリオしてみました - karaage. [からあげ]

                                                            AIマリオにチャレンジ 以下の記事の続きです。 棒を倒さないクソゲーだとつまらないので、マリオをやってみました。ディープラーニングのフレームワークとして、今回はTensorFlowでなくPyTorchを使っています。PyTorchに関しては以下記事参照ください。 AIでマリオを学習させると、結構賢くなります。 詳しくは、以下Qiita記事に書いています。 まとめ Qiitaに書いた記事の紹介です。 「深層強化学習難しくて分からないなぁ」という人、安心してください、私もさっぱり分かりません(笑)興味がある人は一緒に学んでいきましょう。 ベースとなる基礎知識に関しては、以下のような本がありますので、興味ある方は是非(宣伝です)。 関連記事

                                                              深層強化学習でAIマリオしてみました - karaage. [からあげ]
                                                            • 強化学習AIで売買電計画を最適化、電通大など新手法

                                                              電気通信大学とグリッドの研究グループは、電力需要や天候といった、不確実な要素がある環境で、電力の消費と売電を適正に制御する強化学習手法を開発した。従来の手法よりも、制約を守りながら経済的な売買電計画を作成できるという。 今回の研究では、並行訓練した複数の強化学習ネットワークの出力から総合的に判断する「アンサンブル強化学習」を採用した。事前に典型的な需要と天候のパターンをいくつか用意し、それぞれに対応する AI モデルを独立に学習させることで、異なる判断基準を備えた複数の AI モデルを作成。アルゴリズム全体の行動は複数の AI モデルの出力を平均化して1つに決定する。 研究チームは、太陽光発電パネルが発電した余剰電力を売却するか、電力系統から電力を購入するかを24時間にわたって決め続ける状況で、考案したアルゴルズムを検証した。夜間には蓄電池を満タンに充電するとの制約も設け、制約を守りながら

                                                                強化学習AIで売買電計画を最適化、電通大など新手法
                                                              • Amazon SageMaker RL を利用した Unity 上での強化学習エージェントの作成 | Amazon Web Services

                                                                Amazon Web Services ブログ Amazon SageMaker RL を利用した Unity 上での強化学習エージェントの作成 Unityはゲーム業界をはじめ、映画や自動車業界など幅広い分野で利用されている仮想環境エンジンです。ユーザーはUnityで提供されるツールを通して、独自の物理法則、地形、キャラクターを作成することが可能です。Unity Machine Learning Agents Toolkit (ML-Agents)はオープンソースプロジェクトで、Unityで構築した仮想環境内で動作する強化学習エージェントを作成することが可能です。強化学習とは機械学習の一種であり、エージェントはある環境上の一連のアクションに対して受け取る総報酬を最大化するための方策を学習します。SageMakerにおける強化学習の取り組みについてはこちらのブログを参照ください。Unity

                                                                  Amazon SageMaker RL を利用した Unity 上での強化学習エージェントの作成 | Amazon Web Services
                                                                • 『用量反応試験における患者の割り付けの深層強化学習による最適化』というタイトルで統計関連学会連合大会で発表しました - StatModeling Memorandum

                                                                  ありがたいことに統計関連学会連合大会の招待講演の依頼がありましたので喜んで引き受けました。たくさんの質問ありがとうございました。 発表資料を共有します。一言で言うと、臨床試験において各患者を各用量にどう割り付けるのが良いかを強化学習を用いて求める方法です。性能が良く第2相試験の効率を大きく改善すると思っています。実際の臨床試験でぜひ使ってほしいですし、そのための協力は惜しみません。 用量反応試験における患者の割り付けの深層強化学習による最適化 by @MatsuuraKentaro 元論文はこちらです(open access)。 資料の方は分かりやすさ重視のため、評価シナリオにexponentialモデルが入っていないです。論文の方は欠点を明確にするために入っています。 2024/10/04 追記 Rパッケージがリリースされました!CRANとGitHubにあります。実際の臨床試験へ適用する

                                                                    『用量反応試験における患者の割り付けの深層強化学習による最適化』というタイトルで統計関連学会連合大会で発表しました - StatModeling Memorandum
                                                                  • 【強化学習】World Modelsを解説・実装 - Qiita

                                                                    この記事は自作している強化学習フレームワークの解説記事です。 次:PlaNet World Models 参考 ・論文:https://arxiv.org/abs/1803.10122 ・作者のblog:https://worldmodels.github.io/ ・コードサンプル:https://paperswithcode.com/paper/world-models ・(論文)World Models(2018) | Qiita ・機械学習論文読み:World Models | Qiita ・World Models (the long version) | ADG Efficiency 1. 動機 私たちの脳は日常生活にある膨大な情報を扱うために、空間的・時間的な側面を抽象化して学習しています。 (画像は論文より引用、脳内では自転車が抽象化されている) この脳内で抽象化された予測モ

                                                                      【強化学習】World Modelsを解説・実装 - Qiita
                                                                    • オフライン強化学習① Conservative Q-Learning (CQL)の実装 - どこから見てもメンダコ

                                                                      オフライン強化学習の有名手法CQLについて、簡単な解説とともにブロック崩し環境向けのtf2実装を紹介します [2006.04779] Conservative Q-Learning for Offline Reinforcement Learning sites.google.com はじめに:オフライン強化学習とは 問題設定:ゲーム実況を見るだけで上手にプレイできるか? 実世界でのユースケース 模倣学習との違いなど オフライン強化学習の難しさ データセットサイズは問題を解決しない Out of Distribution: データセット分布外アクションの過大評価 もっと詳しく CQL:保守的なQ学習 前例が無いからダメです 方策の正則化 CQL(H)のTF2実装 DQN Replay Datasetの利用 ブロック崩しの学習結果 次:Decision Transformer 前提手法: h

                                                                        オフライン強化学習① Conservative Q-Learning (CQL)の実装 - どこから見てもメンダコ
                                                                      • AlphaGoで学ぶ強化学習 ~次の一手を予測する将棋AIを作ってみよう~ - OPTiM TECH BLOG

                                                                        こんにちは、R&Dの宮城です。 将棋の竜王戦が世間を賑わせる中、オプティムでも人知れず将棋AI vs 私の熱闘が繰り広げられていました。 今回の記事では強化学習について簡単に説明した後、次の一手を予測する将棋AIを作成し、作成した将棋AIと実際に戦ってみます。 ※ 作成した将棋AIは強化学習ではなく教師あり学習で訓練されたものです。 強化学習の概要 将棋の補足説明 次の一手を予測するPolicyNetwork作成 入力特徴量 駒の位置を表す特徴 持ち駒の有無を表す特徴 入力特徴量まとめ 出力クラス PolicyNetwork実装 PolicyNetwork訓練 実戦 結果 おわりに ライセンス表記 強化学習の概要 強化学習は機械学習手法の一つです。 教師あり学習: 入力と入力に対する正しい出力(正解データ)が与えられ、出力が正解データに近づくように学習する 教師なし学習: 入力のみが与えら

                                                                          AlphaGoで学ぶ強化学習 ~次の一手を予測する将棋AIを作ってみよう~ - OPTiM TECH BLOG
                                                                        • OpenAIが新型のGPT「CriticGPT」を公開しました.ChatGPT以来初のナンバーシリーズではない変化球なGPTの発表で,LLMの強化学習に利用するGPTのようです.

                                                                          • 強化学習をベイズ的に解釈をすることは可能なのでしょうか? 既にそのような研究などがあるのか気になりました。 | mond

                                                                            強化学習をベイズ的に解釈をすることは可能なのでしょうか? 既にそのような研究などがあるのか気になりました。 はい、強化学習をベイズ的に解釈することは可能です。簡単にいうと、強化学習における最適制御やプランニングといったアルゴリズムのほとんどは、ベイズでいうところの確率モデル上での推論(条件付き確率)の計算として統一的に整理することが可能です。 強化学習を確率モデル上の推論と考えることで、従来のアルゴリズムの多くが統一的に解釈し直されます。これによって、計算の観点で言えば、例えばベイズ統計におけるMCMCや変分推論法といった効率的なアルゴリズムを強化学習に取り入れることができるようになります。モデルの観点でいえば、POMDPを含む様々な仮定をベイズモデリングの枠組みに則って柔軟に設定することができます。また、多くの場合トレードオフとして片付けられているexplorationとexploita

                                                                              強化学習をベイズ的に解釈をすることは可能なのでしょうか? 既にそのような研究などがあるのか気になりました。 | mond

                                                                            新着記事