本文「epsilon greedy」を検索 - はてなブックマーク

1 - 17 件 / 17件

新着順人気順

絞り込み

検索対象
ブックマーク数
期間
セーフサーチ

epsilon greedyの検索結果1 - 17 件 / 17件

いろんなバンディットアルゴリズムを理解しよう - Qiita
- 124 users
- qiita.com/birdwatcher
- テクノロジー
- 2023/11/01
今回は、何も知らないところからバンディットアルゴリズムを学びました。シンプルなバンディットアルゴリズムから、各ユーザーごとに最適化するContextual Bandit、順序を最適化するCascading Banditまで解説します。学んでいて疑問に思ったことを解消しつつ記載しています。ソースコード https://github.com/birdwatcherYT/bandit 対象読者バンディットアルゴリズムを理解して実装したい人ユーザーごとにカスタマイズしたバンディットを理解して実装したい人（Contextual Bandit）順序を最適化するバンディットを使いたい人（Cascading Bandit）バンディットアルゴリズムバンディットの問題設定を説明します。スロットマシンN台があるスロットマシンの腕を引くと報酬がもらえる累積報酬を最大化したいバンディットアル
- アルゴリズム
- bandit
- あとで読む
- 機械学習
- algorithm
- qiita
- AI
強化学習の基礎まとめ - Qiita
- 101 users
- qiita.com/ski2_1116
- テクノロジー
- 2023/05/13
こんにちは、すきにーです。強化学習の基礎的な手法についてまとめました。はじめにこの記事では以下を説明しています動的計画法モンテカルロ法 TD法(SARSA、Q学習) コードはゼロから作るDeepLearning4 強化学習編に載っているものを参考にしています。参考記事深層強化学習アルゴリズムまとめゼロからDeepまで学ぶ強化学習これから強化学習を勉強する人のための「強化学習アルゴリズム・マップ」と、実装例まとめ今さら聞けない強化学習（1）：状態価値関数とBellman方程式全体図動的計画法動的計画法は、エージェントが置かれた環境のモデルがすでに分かっているとき最適な方策を見つけるアプローチです。方策反復法と価値反復法があります。環境のモデルが分かっていることは少ないので、あまり使われません。モンテカルロ法動的計画法では環境のモデルが完全にわかっている状態
- アルゴリズム
- あとで読む
- 強化学習
- 機械学習
- qiita
- 学習
- techfeed
- AI
- 研究
強化学習未経験者がテトリスの AI を作ってみた話
- 57 users
- zenn.dev/through
- テクノロジー
- 2024/05/01
はじめにこの度、強化学習によるテトリスの AI を作成してみました。想像以上にうまくいき、最終的には半永久的にラインを消してくれる AI に成長してくれたので、今回はその記録として AI を作成した過程をここに記していきます！今回の AI の概要今回作成したテトリス AI の概要は以下の通りです。特定のゲームの状態から可能な行動パターンを全てシミュレーションする行動後の状態を入力情報として Neural Network に今後の報酬の期待値を推測させる今後の報酬の期待値が一番高くなる行動を実際の行動として選択して遷移する (貪欲方策) Game Over になるまで 1 ~ 3 を繰り返す Tetris AI を可視化した図何も知らない頃は『AI ってどうやって動いてるんだ？』と自分は思っていたんですが、動作原理は非常にシンプルです。強化学習とは、この今後の報酬の期待値を推測
GPT in 60 Lines of NumPy | Jay Mody
- 53 users
- jaykmody.com
- テクノロジー
- 2023/02/10
January 30, 2023 In this post, we'll implement a GPT from scratch in just 60 lines of numpy. We'll then load the trained GPT-2 model weights released by OpenAI into our implementation and generate some text. Note: This post assumes familiarity with Python, NumPy, and some basic experience training neural networks. This implementation is missing tons of features on purpose to keep it as simple as p
強化学習 - 2020論文までの道のり(Q学習中心～R2D3, Agent57) - Qiita
- 47 users
- qiita.com/aiueola
- テクノロジー
- 2020/09/29
強化学習の基礎から最近の論文までの道のりを繫ぎたいというモチベーションで，最初は強化学習の基礎の基礎の解説から，Q学習についてR2D3, Agent57あたりまで読んだ論文についてまとめてみました．Actor-Criticについては，Q学習との比較用にA3Cあたりを少しだけ書いています．あと，最後に軽くマルチエージェント強化学習(MARL)とオフライン強化学習(Offline RL)にも触れて紹介しています．基礎の基礎強化学習とは？教師あり学習，教師無し学習に並ぶ，機械学習の一分野．端的に言うと，エージェントと呼ばれる行動主体が，ある環境のなかで得られる報酬を最大化する最適化問題．ただし，報酬を得るためにどうしたらよいかというのは非自明な場合が多く，また，報酬のみではスパースで扱いにくいので，途中の過程ででてくる状態や，エージェントの行動に価値を付与し，その価値を最大化する問題に
カメラにシールを貼るだけでディープラーニングを誤認識させる攻撃方法が登場
- 45 users
- ai-scholar.tech
- テクノロジー
- 2019/10/18
3つの要点 ✔️カメラにシールを貼るだけでディープラーニングを誤認識させることが可能になった ✔️対象物を異なる角度や距離で撮影しても誤認識させられることを動画データで検証 ✔️顔認証用のカメラにシールを貼っておくことでシステムに気づかれずに他人になりすましたりできてしまうかもしれないディープラーニングによる画像分類は高い性能を誇りますが、画像に摂動を加えるだけで、人間の目ではほぼ違いがないのにディープラーニングが他のカテゴリであると誤認識してしまう adversarial attack という攻撃方法が知られています。この adversarial attack にどのように対応するかは、実世界でディープラーニングを含んだシステムを運用していく上で重要になるだけでなく、人間の認識とディープラーニングによる認識の違いを理解するのにも重要であり、一つの大きな研究テーマにもなっています。こ
- 人工知能
- あとで読む
- 機械学習
- 謎
- AI
- 科学
【強化学習】ついに人間を超えた！？Agent57を解説/実装してみた（Keras-RL） - Qiita
- 19 users
- qiita.com/pocokhc
- テクノロジー
- 2020/07/12
強化学習の評価でよく使われるAtariのゲームですが、ついに57全てのゲームで人間を超えた手法が現れたようです。早速実装してみました。 ※ネット上の情報をかき集めて自分なりに実装しているので正確ではない点はご了承ください ※解釈違いの内容がある可能性もご注意ください（理解が追いついていない部分があります）コード全体本記事で作成したコードは以下です。 github GoogleColaboratory(実行結果付き) ※GoogleColaboratoryはmultiprocessingの相性が悪いらしく1Actorのみの学習となります) ※MountainCarの学習をのせています追記：自作フレームワークを作成しています。そちらの実装の方が正確なコードとなります。目次構成としては前半が技術解説で後半が実装の説明になります。 Agent57とは NGU(Never Give Up
GitHub - ddbourgin/numpy-ml: Machine learning, in numpy
- 12 users
- github.com/ddbourgin
- テクノロジー
- 2019/07/09
Click to expand! Gaussian mixture model EM training Hidden Markov model Viterbi decoding Likelihood computation MLE parameter estimation via Baum-Welch/forward-backward algorithm Latent Dirichlet allocation (topic model) Standard model with MLE parameter estimation via variational EM Smoothed model with MAP parameter estimation via MCMC Neural networks Layers / Layer-wise ops Add Flatten Multiply
The Decade of Deep Learning
- 11 users
- bmk.sh
- テクノロジー
- 2020/01/01
As the 2010’s draw to a close, it’s worth taking a look back at the monumental progress that has been made in Deep Learning in this decade.[1] Driven by the development of ever-more powerful compute and the increased availability of big data, Deep Learning has successfully tackled many previously intractable problems, especially in Computer Vision and Natural Language Processing. Deep Learning has
- 機械学習
- あとで読む
An Opinionated Guide to ML Research
- 8 users
- joschu.net
- テクノロジー
- 2020/01/31
← back to blog index I originally wrote this guide in back in December 2017 for the OpenAI Fellows program In this essay, I provide some advice to up-and-coming researchers in machine learning (ML), based on my experience doing research and advising others. The advice covers how to choose problems and organize your time. I also recommend the following prior essays on similar topics: You and Your R
- 機械学習
- あとで読む
[Rust] バンディッドアルゴリズム(Epsilon-greedy)の実装 | DevelopersIO
- 7 users
- dev.classmethod.jp
- テクノロジー
- 2021/07/16
Intoroduction 例えば、「複数のスロットマシンがあり、それぞれ期待値が異なるがその値はわからない場合、どのスロットマシンを選ぶのが一番よいのか」この問題を解決する手法の１つが、今回紹介するバンディッドアルゴリズムです。本稿ではバンディッドアルゴリズムの簡単な説明と、そのアルゴリズムを使用したコードをRustで実装してみます。 Bandit Algorithm? バンディッドアルゴリズムは、システムが自分でいろいろと試行錯誤しながら最適な結果を実現する強化学習(Reinforcement Learning)の中で、代表的な手法のひとつです。 Multi-Armed Bandit Problem(多腕バンディット問題)とよばれる問題を解くためのアルゴリズムで、これは先程もいったように、報酬の確率分布が未知の複数台のスロットマシンを繰り返しプレイするとき、どういった方
- アルゴリズム
- HotEntry
VOYAGEで遅めのAdventureしてきた話 - Ric.'s rubbish heap.
- 6 users
- ric418.hatenablog.com
- テクノロジー
- 2019/12/26
しれっとTreasure Advent Calendar 2019の13日目に入れちゃいました…笑今回はVOYAGE GROUPさん(以後VG)のZucksデータチームの西林さんの元(お隣)で9月に行われていたAdventure voyagegroup.com の内容をベースにしてAd-networkにおける… 配信条件を満たす配信制御多腕バンディット問題を用いた配信戦略機械学習を用いたCTR予測フィードバック制御を用いた配信制御この辺りを三日間で総ざらいしていく形で参加させて頂きました！講師の西林さんの伝えたかった事のまとめもありますのでこちら hagino3000.blogspot.com も合わせて是非！参加の経緯もともとアドテク分野において DSPのモデルを組んだことはあったがAd-networkでの経験は無かったということもありましたが、何よりも VOYAGE
- 広告
LLMOps を考え始める - ShuntaIto Tech Blog
- 5 users
- blog.shuntaito.net
- テクノロジー
- 2023/05/10
はじめに大規模言語モデル、LLM が大流行です。猫も杓子も LLM で、LLM および OpenAI にかなり入れ込んでいた Microsoft の勢いを見て Google が社内に保有していた LLM をサービスとして投入しようとしていたり、AWS が参入表明したり、大規模なテキストデータを擁する Twitter を手中に収めたイーロン・マスクが参入を表明したりと、提供者側プレイヤーはその数も面子もなかなかインパクトがあります。OSS の LLM も「数日おきに何か発表があるなぁ」という感じで日に日に増加しており、商用利用を見据えた使いやすいライセンスの下に開発された LLM も随分と増えてきました。使用者側の面子を見ても、個人ユーザーやベンチャー企業、その他一般企業はもとより、従来この手の新進気鋭のサービス導入がなかなか進まないイメージがあった大手金融機関や官公庁に至るまでかなり深く
【強化学習】DQNを解説・実装 - Qiita
- 3 users
- qiita.com/pocokhc
- テクノロジー
- 2022/06/04
この記事は自作している強化学習フレームワーク SimpleDistributedRL の解説記事です。 DQNについては昔記事を書いていますが、知識も更新されているので改めて書いています。前：Q学習次：Rainbow DQN(Deep Q-Networks) 略称がネットスラングと重なったのは偶然らしいです。また、時代背景的に初めて強化学習に深層学習（ニューラルネットワーク）の技術を採用して成果を出したことで有名になった手法となります。 Q学習の一番の問題点は、状態が離散かつ有限状態でしか表現できなかったことです。例えば以下のマリオの位置を考えます。マリオの座標が 1.1 と 1.11 はほぼ同じ状態とみて問題ありません。しかし、Q学習ではこれが別の状態と認識されてしまいます。こういう連続値は状態数が無限になるのでQ学習では学習ができません。そこでQテーブルをニューラルネッ
DQNの進化史 ①DeepMindのDQN - どこから見てもメンダコ
- 3 users
- horomary.hatenablog.com
- テクノロジー
- 2021/12/03
DeepMindのDQNからR2D2くらいまでの深層強化学習（Q学習）の発展の歴史を、簡単な解説とtensorflow2での実装例と共に紹介していきます。まずは深層強化学習の新たな時代を切り開いたDeepMindのDQN（2013）です。論文からはわかりにくいatari環境向けの実装上のテクニックとDQNを構成する各要素が後継手法でどのように改良されていったかのレビューに焦点を置いてBreakout（ブロック崩し）向けにtensorflow2での実装例を紹介します。 DQNシリーズ DQNの進化史 ①DeepMindのDQN - どこから見てもメンダコ DQNの進化史 ②Double-DQN, Dueling-network, Noisy-network - どこから見てもメンダコ DQNの進化史 ③優先度付き経験再生, Multi-step learning, C51 - どこから見て
- 機械学習
【強化学習初心者向け】シンプルな実装例で学ぶQ学習、DQN、DDQN【CartPoleで棒立て：1ファイルで完結、Kearas使用】 - Qiita
- 3 users
- qiita.com/sugulu_Ogawa_ISID
- テクノロジー
- 2023/03/28
【強化学習初心者向け】シンプルな実装例で学ぶQ学習、DQN、DDQN【CartPoleで棒立て：1ファイルで完結、Kearas使用】Python機械学習DeepLearning強化学習Keras ※2018年06月23日追記 PyTorchを使用した最新版の内容を次の書籍にまとめました。つくりながら学ぶ! 深層強化学習 ~PyTorchによる実践プログラミング~ 18年6月28日発売「倒立振子（棒立て問題）」を、強化学習のQ学習、DQNおよびDDQN（Double DQN）で実装・解説したので、紹介します。ディープラーニングのライブラリにはKerasを使用しました。（※追記：17/09/27にHuber関数部分を修正しました）（※追記：17/10/01にQ学習更新のr抜けを修正しました）（※追記：17/10/03にQ学習報酬のrewardを修正しました）（※追記：18/05/
[レポート] Amazon SageMaker RL: Solving business problems with RL and bandits #AIM404 #reinvent | DevelopersIO
- 3 users
- dev.classmethod.jp
- テクノロジー
- 2019/12/30
[レポート] Amazon SageMaker RL: Solving business problems with RL and bandits #AIM404 #reinvent 最初にこんにちは、データアナリティクス事業本部のyoshimです。今日はre:Invent2019にて行われた「Amazon SageMaker RL: Solving business problems with RL and bandits」というワークショップの内容についてご紹介するエントリーを書こうと思います。ワークショップ概要本ワークショップの概要は下記の通りです。 In reinforcement learning (RL), an RL agent learns in an interactive environment by trial and error using feedback