[B! 強化学習] astk_fのブックマーク

強化学習をバランス調整に活用。『逆転オセロニア』が目指す、ゲーム開発の近未来 – フルスイング – DeNA

AI（人工知能）が、人間の仕事を代替する。近年、そんなフレーズが各種メディアに登場するようになりました。今後10～20年で、今存在しているさまざまな仕事は自動化されると考えられています。そして、その波は“ゲーム開発”にも訪れているのです。 DeNAでは、オセロとトレーディングカードゲームの要素を組み合わせた対戦ゲームアプリ『逆転オセロニア』のキャラクターバランス調整を、AIによってサポートすべく研究を続けています。今回は、本プロジェクトを推進し研究・開発に“フルスイング”してきたエンジニアであるAIシステム部AI研究開発グループの奥村エルネスト純、甲野佑、田中一樹に、彼らが成し遂げようとしている未来について聞きました。「世界的に見ても前例がない領域」に挑むやりがい ――なぜ、オセロニアのバランス調整にAIを導入しようとしているのでしょうか？奥村：ゲームのバランス調整をより効率よく正確

astk_f 2018/01/11

リンク

【強化学習】DQNを秒速で扱える『ChainerRL』使い方メモ - プロクラシスト

こんにちは、ほけきよです！強化学習って知ってますか？「Alpha Goが、碁の世界王者を破った」などと最近脚光を浴びている機械学習技術ですね。私のブログでも何回か関連記事を出しているのですが、今回は、Chainerで強化学習を簡単に扱えるツール、「ChainerRL」を使ってみました！なかなか便利だったので使い方を解説やまとめ、Tipsを加えながらメモしてみました。 (コードはjupyter準拠なので、上から順番にコピペすると基本は動くはずです) これから強化学習やってみたいという人は、これで強化学習がどんなものか試してみるのもいいかもしれません！強化学習って？ chainerrl Setup 必要なライブラリをimportする environmentの設定 environmentに必要な要件(最低限) 今回使うもの Agentの設定 ChainerRLでデフォで実装されている

astk_f 2017/03/22

リンク

［CEDEC 2016］果たしてAIはRPGをクリアできるのか？ AIによるテストプレイでゲームのクオリティを高める技術とは

［CEDEC 2016］果たしてAIはRPGをクリアできるのか？ AIによるテストプレイでゲームのクオリティを高める技術とはライター：徳岡正肇ゲームのバランス調整にあたって，テストプレイは欠かせない。しかしながら，毎月のように（ときには毎週のように）イベントを実施するモバイル向けオンラインゲームでは，テストプレイに必要となる時間もまた膨大なものとなり得る。かくして，人間がプレイするのではなく，AIにプレイさせて，その結果からゲームバランスを調整していくことはできないか，という発想が生まれることになった。果たしてAIは，人間のようにきちんとゲームを攻略できるのだろうか？またその攻略法は，人間のそれと同じものになるのだろうか。CEDEC 2016では「ファイナルファンタジーレコードキーパー」（以下，FFRK）でAIによるテストプレイを行う試みに関する講演が行われた。ディー・エヌ・

astk_f 2016/09/04

リンク

DQNをKerasとTensorFlowとOpenAI Gymで実装する

はじめに少し時代遅れかもしれませんが、強化学習の手法のひとつであるDQNをDeepMindの論文Mnih et al., 2015, Human-level control through deep reinforcement learningを参考にしながら、KerasとTensorFlowとOpenAI Gymを使って実装します。前半では軽くDQNのおさらいをしますが、少しの強化学習の知識を持っていることを前提にしています。すでにいくつか良記事が出ているので紹介したいと思います。合わせて読むと理解の助けになると思うので、是非参考にしてみてください。 DQNの生い立ち　＋　Deep Q-NetworkをChainerで書いた DQNが生まれた背景について説明してくれています。Chainerでの実装もあるそうです。ゼロからDeepまで学ぶ強化学習タイトルの通り、ゼロからDeepま

astk_f 2016/07/02

リンク

深層強化学習：ピクセルから『ポン』 – 前編 | POSTD

(訳注：2016/6/28、記事を修正いたしました。) 本記事は、もう随分と前から投稿したいと思っていた強化学習（RL）に関するものです。RLは盛り上がっています。皆さんも既にご存知のこととは思いますが、今やコンピュータは ATARI製ゲームのプレイ方法を自分で学習することができ（それも生のゲーム画像のピクセルから！）、囲碁の世界チャンピオンにも勝つことができます。シミュレーションの四肢動物は走って飛び跳ねることを学習しますし、ロボットは明示的にプログラミングするのが難しいような複雑な操作のタスクでも、その実行方法を学習してしまいます。こうした進歩はいずれも、RL研究が基となって実現しています。私自身も、ここ1年ほどでRLに興味を持つようになりました。これまで、 Richard Suttonの著書で勉強し、 David Silverのコースを通読、 John Schulm

astk_f 2016/06/29

リンク

ゼロからDeepまで学ぶ強化学習 - Qiita

ロボットから自動運転車、はては囲碁・将棋といったゲームまで、昨今多くの「AI」が世間をにぎわせています。その中のキーワードとして、「強化学習」というものがあります。そうした意味では、数ある機械学習の手法の中で最も注目されている(そして誇張されている・・・)手法ともいえるかもしれません。今回はその強化学習という手法について、基礎から最近目覚ましい精度を出しているDeep Q-learning(いわゆるドキュン、DQNです)まで、その発展の流れと仕組みについて解説をしていきたいと思います。本記事の内容をベースに、ハンズオンイベントを開催しました(PyConJPのTalkの増補改訂版) Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン講義資料の方が図解が豊富なので、数式とかちょっと、という場合はこちらがおすすめです。 Tech-Circle #18 Pythonではじ

astk_f 2016/06/10

リンク

強化学習とは何か、調べてみた - のんびりしているエンジニアの日記

皆さんこんにちはお元気ですか。私は元気です。今日は強化学習の勉強がてらメモを書いてみました。個人的には最近、注目している分野で、ゴールがあるような（クラス分類やRegression）機械学習と異なり、汎用的に色々問題が解けそうだからというのが理由です。（なんか色々語弊を生みそう）間違っていれば教えて下さい。強化学習強化学習における要因 Policy Reward Function Value function model of the environment 強化学習で解ける問題参考文献強化学習強化学習はある環境ないにおけるエージェントが、現在の状態を観測し、取るべき行動を決定する問題を扱う機械学習の一種 by wikipedia この中で登場するのは、「状態」と「行動を決定する」といったところでしょうか。つまり、「ある状態の時に、どう行動をするか」といったこと

astk_f 2016/06/01

リンク

はてなブックマーク

タグ

関連タグで絞り込む (11)

強化学習に関するastk_fのブックマーク (7)

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス