並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 17 件 / 17件

新着順 人気順

epsilon greedyの検索結果1 - 17 件 / 17件

  • いろんなバンディットアルゴリズムを理解しよう - Qiita

    今回は、何も知らないところからバンディットアルゴリズムを学びました。 シンプルなバンディットアルゴリズムから、各ユーザーごとに最適化するContextual Bandit、順序を最適化するCascading Banditまで解説します。 学んでいて疑問に思ったことを解消しつつ記載しています。 ソースコード https://github.com/birdwatcherYT/bandit 対象読者 バンディットアルゴリズムを理解して実装したい人 ユーザーごとにカスタマイズしたバンディットを理解して実装したい人(Contextual Bandit) 順序を最適化するバンディットを使いたい人(Cascading Bandit) バンディットアルゴリズム バンディットの問題設定を説明します。 スロットマシンN台がある スロットマシンの腕を引くと報酬がもらえる 累積報酬を最大化したい バンディットアル

      いろんなバンディットアルゴリズムを理解しよう - Qiita
    • 強化学習の基礎まとめ - Qiita

      こんにちは、すきにーです。 強化学習の基礎的な手法についてまとめました。 はじめに この記事では以下を説明しています 動的計画法 モンテカルロ法 TD法(SARSA、Q学習) コードはゼロから作るDeepLearning4 強化学習編 に載っているものを参考にしています。 参考記事 深層強化学習アルゴリズムまとめ ゼロからDeepまで学ぶ強化学習 これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ 今さら聞けない強化学習(1):状態価値関数とBellman方程式 全体図 動的計画法 動的計画法は、エージェントが置かれた環境のモデルがすでに分かっているとき最適な方策を見つけるアプローチです。 方策反復法と価値反復法があります。 環境のモデルが分かっていることは少ないので、あまり使われません。 モンテカルロ法 動的計画法では環境のモデルが完全にわかっている状態

        強化学習の基礎まとめ - Qiita
      • 強化学習未経験者がテトリスの AI を作ってみた話

        はじめに この度、強化学習によるテトリスの AI を作成してみました。想像以上にうまくいき、最終的には半永久的にラインを消してくれる AI に成長してくれたので、今回はその記録として AI を作成した過程をここに記していきます! 今回の AI の概要 今回作成したテトリス AI の概要は以下の通りです。 特定のゲームの状態から可能な行動パターンを全てシミュレーションする 行動後の状態を入力情報として Neural Network に今後の報酬の期待値を推測させる 今後の報酬の期待値が一番高くなる行動を実際の行動として選択して遷移する (貪欲方策) Game Over になるまで 1 ~ 3 を繰り返す Tetris AI を可視化した図 何も知らない頃は『AI ってどうやって動いてるんだ?』と自分は思っていたんですが、動作原理は非常にシンプルです。強化学習とは、この今後の報酬の期待値を推測

          強化学習未経験者がテトリスの AI を作ってみた話
        • GPT in 60 Lines of NumPy | Jay Mody

          January 30, 2023 In this post, we'll implement a GPT from scratch in just 60 lines of numpy. We'll then load the trained GPT-2 model weights released by OpenAI into our implementation and generate some text. Note: This post assumes familiarity with Python, NumPy, and some basic experience training neural networks. This implementation is missing tons of features on purpose to keep it as simple as p

          • 強化学習 - 2020論文までの道のり(Q学習中心~R2D3, Agent57) - Qiita

            強化学習の基礎から最近の論文までの道のりを繫ぎたいというモチベーションで,最初は強化学習の基礎の基礎の解説から,Q学習についてR2D3, Agent57あたりまで読んだ論文についてまとめてみました.Actor-Criticについては,Q学習との比較用にA3Cあたりを少しだけ書いています.あと,最後に軽くマルチエージェント強化学習(MARL)とオフライン強化学習(Offline RL)にも触れて紹介しています. 基礎の基礎 強化学習とは? 教師あり学習,教師無し学習に並ぶ,機械学習の一分野. 端的に言うと,エージェントと呼ばれる行動主体が,ある環境のなかで得られる報酬を最大化する最適化問題. ただし,報酬を得るためにどうしたらよいかというのは非自明な場合が多く,また,報酬のみではスパースで扱いにくいので,途中の過程ででてくる状態や,エージェントの行動に価値を付与し,その価値を最大化する問題に

              強化学習 - 2020論文までの道のり(Q学習中心~R2D3, Agent57) - Qiita
            • カメラにシールを貼るだけでディープラーニングを誤認識させる攻撃方法が登場

              3つの要点 ✔️カメラにシールを貼るだけでディープラーニングを誤認識させることが可能になった ✔️対象物を異なる角度や距離で撮影しても誤認識させられることを動画データで検証 ✔️顔認証用のカメラにシールを貼っておくことでシステムに気づかれずに他人になりすましたりできてしまうかもしれない ディープラーニングによる画像分類は高い性能を誇りますが、画像に摂動を加えるだけで、人間の目ではほぼ違いがないのにディープラーニングが他のカテゴリであると誤認識してしまう adversarial attack という攻撃方法が知られています。 この adversarial attack にどのように対応するかは、実世界でディープラーニングを含んだシステムを運用していく上で重要になるだけでなく、人間の認識とディープラーニングによる認識の違いを理解するのにも重要であり、一つの大きな研究テーマにもなっています。 こ

              • 【強化学習】ついに人間を超えた!?Agent57を解説/実装してみた(Keras-RL) - Qiita

                強化学習の評価でよく使われるAtariのゲームですが、ついに57全てのゲームで人間を超えた手法が現れたようです。 早速実装してみました。 ※ネット上の情報をかき集めて自分なりに実装しているので正確ではない点はご了承ください ※解釈違いの内容がある可能性もご注意ください(理解が追いついていない部分があります) コード全体 本記事で作成したコードは以下です。 github GoogleColaboratory(実行結果付き) ※GoogleColaboratoryはmultiprocessingの相性が悪いらしく1Actorのみの学習となります) ※MountainCarの学習をのせています 追記:自作フレームワークを作成しています。そちらの実装の方が正確なコードとなります。 目次 構成としては前半が技術解説で後半が実装の説明になります。 Agent57とは NGU(Never Give Up

                  【強化学習】ついに人間を超えた!?Agent57を解説/実装してみた(Keras-RL) - Qiita
                • GitHub - ddbourgin/numpy-ml: Machine learning, in numpy

                  Click to expand! Gaussian mixture model EM training Hidden Markov model Viterbi decoding Likelihood computation MLE parameter estimation via Baum-Welch/forward-backward algorithm Latent Dirichlet allocation (topic model) Standard model with MLE parameter estimation via variational EM Smoothed model with MAP parameter estimation via MCMC Neural networks Layers / Layer-wise ops Add Flatten Multiply

                    GitHub - ddbourgin/numpy-ml: Machine learning, in numpy
                  • The Decade of Deep Learning

                    As the 2010’s draw to a close, it’s worth taking a look back at the monumental progress that has been made in Deep Learning in this decade.[1] Driven by the development of ever-more powerful compute and the increased availability of big data, Deep Learning has successfully tackled many previously intractable problems, especially in Computer Vision and Natural Language Processing. Deep Learning has

                      The Decade of Deep Learning
                    • An Opinionated Guide to ML Research

                      ← back to blog index I originally wrote this guide in back in December 2017 for the OpenAI Fellows program In this essay, I provide some advice to up-and-coming researchers in machine learning (ML), based on my experience doing research and advising others. The advice covers how to choose problems and organize your time. I also recommend the following prior essays on similar topics: You and Your R

                      • [Rust] バンディッドアルゴリズム(Epsilon-greedy)の実装 | DevelopersIO

                        Intoroduction 例えば、「複数のスロットマシンがあり、それぞれ期待値が異なるがその値はわからない場合、 どのスロットマシンを選ぶのが一番よいのか」 この問題を解決する手法の1つが、今回紹介するバンディッドアルゴリズムです。 本稿ではバンディッドアルゴリズムの簡単な説明と、 そのアルゴリズムを使用したコードをRustで実装してみます。 Bandit Algorithm? バンディッドアルゴリズムは、システムが自分でいろいろと試行錯誤しながら 最適な結果を実現する強化学習(Reinforcement Learning)の中で、 代表的な手法のひとつです。 Multi-Armed Bandit Problem(多腕バンディット問題)とよばれる問題を解くためのアルゴリズムで、 これは先程もいったように、報酬の確率分布が未知の複数台のスロットマシンを繰り返しプレイするとき、 どういった方

                          [Rust] バンディッドアルゴリズム(Epsilon-greedy)の実装 | DevelopersIO
                        • VOYAGEで遅めのAdventureしてきた話 - Ric.'s rubbish heap.

                          しれっとTreasure Advent Calendar 2019の13日目に入れちゃいました…笑 今回はVOYAGE GROUPさん(以後VG)のZucksデータチームの西林さんの元(お隣)で9月に行われていたAdventure voyagegroup.com の内容をベースにしてAd-networkにおける… 配信条件を満たす配信制御 多腕バンディット問題を用いた配信戦略 機械学習を用いたCTR予測 フィードバック制御を用いた配信制御 この辺りを三日間で総ざらいしていく形で参加させて頂きました! 講師の西林さんの伝えたかった事のまとめもありますのでこちら hagino3000.blogspot.com も合わせて是非! 参加の経緯 もともとアドテク分野において DSPのモデルを組んだことはあったがAd-networkでの経験は無かった ということもありましたが、何よりも VOYAGE

                            VOYAGEで遅めのAdventureしてきた話 - Ric.'s rubbish heap.
                          • LLMOps を考え始める - ShuntaIto Tech Blog

                            はじめに 大規模言語モデル、LLM が大流行です。猫も杓子も LLM で、LLM および OpenAI にかなり入れ込んでいた Microsoft の勢いを見て Google が社内に保有していた LLM をサービスとして投入しようとしていたり、AWS が参入表明したり、大規模なテキストデータを擁する Twitter を手中に収めたイーロン・マスクが参入を表明したりと、提供者側プレイヤーはその数も面子もなかなかインパクトがあります。OSS の LLM も「数日おきに何か発表があるなぁ」という感じで日に日に増加しており、商用利用を見据えた使いやすいライセンスの下に開発された LLM も随分と増えてきました。使用者側の面子を見ても、個人ユーザーやベンチャー企業、その他一般企業はもとより、従来この手の新進気鋭のサービス導入がなかなか進まないイメージがあった大手金融機関や官公庁に至るまでかなり深く

                              LLMOps を考え始める - ShuntaIto Tech Blog
                            • 【強化学習】DQNを解説・実装 - Qiita

                              この記事は自作している強化学習フレームワーク SimpleDistributedRL の解説記事です。 DQNについては昔記事を書いていますが、知識も更新されているので改めて書いています。 前:Q学習 次:Rainbow DQN(Deep Q-Networks) 略称がネットスラングと重なったのは偶然らしいです。 また、時代背景的に初めて強化学習に深層学習(ニューラルネットワーク)の技術を採用して成果を出したことで有名になった手法となります。 Q学習の一番の問題点は、状態が離散かつ有限状態でしか表現できなかったことです。 例えば以下のマリオの位置を考えます。 マリオの座標が 1.1 と 1.11 はほぼ同じ状態とみて問題ありません。 しかし、Q学習ではこれが別の状態と認識されてしまいます。 こういう連続値は状態数が無限になるのでQ学習では学習ができません。 そこでQテーブルをニューラルネッ

                                【強化学習】DQNを解説・実装 - Qiita
                              • DQNの進化史 ①DeepMindのDQN - どこから見てもメンダコ

                                DeepMindのDQNからR2D2くらいまでの深層強化学習(Q学習)の発展の歴史を、簡単な解説とtensorflow2での実装例と共に紹介していきます。 まずは深層強化学習の新たな時代を切り開いたDeepMindのDQN(2013)です。論文からはわかりにくいatari環境向けの実装上のテクニックとDQNを構成する各要素が後継手法でどのように改良されていったかのレビューに焦点を置いてBreakout(ブロック崩し)向けにtensorflow2での実装例を紹介します。 DQNシリーズ DQNの進化史 ①DeepMindのDQN - どこから見てもメンダコ DQNの進化史 ②Double-DQN, Dueling-network, Noisy-network - どこから見てもメンダコ DQNの進化史 ③優先度付き経験再生, Multi-step learning, C51 - どこから見て

                                  DQNの進化史 ①DeepMindのDQN - どこから見てもメンダコ
                                • 【強化学習初心者向け】シンプルな実装例で学ぶQ学習、DQN、DDQN【CartPoleで棒立て:1ファイルで完結、Kearas使用】 - Qiita

                                  【強化学習初心者向け】シンプルな実装例で学ぶQ学習、DQN、DDQN【CartPoleで棒立て:1ファイルで完結、Kearas使用】Python機械学習DeepLearning強化学習Keras ※2018年06月23日追記 PyTorchを使用した最新版の内容を次の書籍にまとめました。 つくりながら学ぶ! 深層強化学習 ~PyTorchによる実践プログラミング~ 18年6月28日発売 「倒立振子(棒立て問題)」を、強化学習のQ学習、DQNおよびDDQN(Double DQN)で実装・解説したので、紹介します。 ディープラーニングのライブラリにはKerasを使用しました。 (※追記:17/09/27にHuber関数部分を修正しました) (※追記:17/10/01にQ学習更新のr抜けを修正しました) (※追記:17/10/03にQ学習報酬のrewardを修正しました) (※追記:18/05/

                                    【強化学習初心者向け】シンプルな実装例で学ぶQ学習、DQN、DDQN【CartPoleで棒立て:1ファイルで完結、Kearas使用】 - Qiita
                                  • [レポート] Amazon SageMaker RL: Solving business problems with RL and bandits #AIM404 #reinvent | DevelopersIO

                                    [レポート] Amazon SageMaker RL: Solving business problems with RL and bandits #AIM404 #reinvent 最初に こんにちは、データアナリティクス事業本部のyoshimです。 今日はre:Invent2019にて行われた「Amazon SageMaker RL: Solving business problems with RL and bandits」というワークショップの内容についてご紹介するエントリーを書こうと思います。 ワークショップ概要 本ワークショップの概要は下記の通りです。 In reinforcement learning (RL), an RL agent learns in an interactive environment by trial and error using feedback

                                      [レポート] Amazon SageMaker RL: Solving business problems with RL and bandits #AIM404 #reinvent | DevelopersIO
                                    1