タグ

強化学習に関するastk_fのブックマーク (7)

  • 強化学習をバランス調整に活用。『逆転オセロニア』が目指す、ゲーム開発の近未来 – フルスイング – DeNA

    AI人工知能)が、人間の仕事を代替する。 近年、そんなフレーズが各種メディアに登場するようになりました。今後10~20年で、今存在しているさまざまな仕事は自動化されると考えられています。そして、その波は“ゲーム開発”にも訪れているのです。 DeNAでは、オセロとトレーディングカードゲームの要素を組み合わせた対戦ゲームアプリ『逆転オセロニア』のキャラクターバランス調整を、AIによってサポートすべく研究を続けています。今回は、プロジェクトを推進し研究・開発に“フルスイング”してきたエンジニアであるAIシステム部AI研究開発グループの奥村エルネスト純、甲野佑、田中一樹に、彼らが成し遂げようとしている未来について聞きました。 「世界的に見ても前例がない領域」に挑むやりがい ――なぜ、オセロニアのバランス調整にAIを導入しようとしているのでしょうか? 奥村:ゲームのバランス調整をより効率よく正確

    強化学習をバランス調整に活用。『逆転オセロニア』が目指す、ゲーム開発の近未来 – フルスイング – DeNA
  • 【強化学習】DQNを秒速で扱える『ChainerRL』使い方メモ - プロクラシスト

    こんにちは、ほけきよです! 強化学習って知ってますか? 「AlphaGoが、碁の世界王者を破った」 などと最近脚光を浴びている機械学習技術ですね。 私のブログでも何回か関連記事を出しているのですが、 今回は、Chainerで強化学習を簡単に扱えるツール、「ChainerRL」を使ってみました! なかなか便利だったので使い方を解説やまとめ、Tipsを加えながらメモしてみました。 (コードはjupyter準拠なので、上から順番にコピペすると基は動くはずです) これから強化学習やってみたいという人は、これで強化学習がどんなものか試してみるのもいいかもしれません! 強化学習って? chainerrl Setup 必要なライブラリをimportする environmentの設定 environmentに必要な要件(最低限) 今回使うもの Agentの設定 ChainerRLでデフォで実装されている

    【強化学習】DQNを秒速で扱える『ChainerRL』使い方メモ - プロクラシスト
  • [CEDEC 2016]果たしてAIはRPGをクリアできるのか? AIによるテストプレイでゲームのクオリティを高める技術とは

    [CEDEC 2016]果たしてAIRPGをクリアできるのか? AIによるテストプレイでゲームのクオリティを高める技術とは ライター:徳岡正肇 ゲームのバランス調整にあたって,テストプレイは欠かせない。しかしながら,毎月のように(ときには毎週のように)イベントを実施するモバイル向けオンラインゲームでは,テストプレイに必要となる時間もまた膨大なものとなり得る。 かくして,人間がプレイするのではなく,AIにプレイさせて,その結果からゲームバランスを調整していくことはできないか,という発想が生まれることになった。 果たしてAIは,人間のようにきちんとゲームを攻略できるのだろうか? またその攻略法は,人間のそれと同じものになるのだろうか。CEDEC 2016では「ファイナルファンタジー レコードキーパー」(以下,FFRK)でAIによるテストプレイを行う試みに関する講演が行われた。 ディー・エヌ・

    [CEDEC 2016]果たしてAIはRPGをクリアできるのか? AIによるテストプレイでゲームのクオリティを高める技術とは
  • DQNをKerasとTensorFlowとOpenAI Gymで実装する

    はじめに 少し時代遅れかもしれませんが、強化学習の手法のひとつであるDQNをDeepMindの論文Mnih et al., 2015, Human-level control through deep reinforcement learningを参考にしながら、KerasとTensorFlowとOpenAI Gymを使って実装します。 前半では軽くDQNのおさらいをしますが、少しの強化学習の知識を持っていることを前提にしています。 すでにいくつか良記事が出ているので紹介したいと思います。合わせて読むと理解の助けになると思うので、是非参考にしてみてください。 DQNの生い立ち + Deep Q-NetworkをChainerで書いた DQNが生まれた背景について説明してくれています。Chainerでの実装もあるそうです。 ゼロからDeepまで学ぶ強化学習 タイトルの通り、ゼロからDeepま

    DQNをKerasとTensorFlowとOpenAI Gymで実装する
  • 深層強化学習:ピクセルから『ポン』 – 前編 | POSTD

    (訳注:2016/6/28、記事を修正いたしました。) 記事は、もう随分と前から投稿したいと思っていた強化学習(RL)に関するものです。RLは盛り上がっています。皆さんも既にご存知のこととは思いますが、今やコンピュータは ATARI製ゲームのプレイ方法を自分で学習する ことができ(それも生のゲーム画像のピクセルから!)、 囲碁 の世界チャンピオンにも勝つことができます。シミュレーションの四肢動物は 走って飛び跳ねる ことを学習しますし、ロボットは明示的にプログラミングするのが難しいような 複雑な操作のタスク でも、その実行方法を学習してしまいます。こうした進歩はいずれも、RL研究が基となって実現しています。私自身も、ここ1年ほどでRLに興味を持つようになりました。これまで、 Richard Suttonの著書 で勉強し、 David Silverのコース を通読、 John Schulm

    深層強化学習:ピクセルから『ポン』 – 前編 | POSTD
  • ゼロからDeepまで学ぶ強化学習 - Qiita

    ロボットから自動運転車、はては囲碁・将棋といったゲームまで、昨今多くの「AI」が世間をにぎわせています。 その中のキーワードとして、「強化学習」というものがあります。そうした意味では、数ある機械学習の手法の中で最も注目されている(そして誇張されている・・・)手法ともいえるかもしれません。 今回はその強化学習という手法について、基礎から最近目覚ましい精度を出しているDeep Q-learning(いわゆるドキュン、DQNです)まで、その発展の流れと仕組みについて解説をしていきたいと思います。 記事の内容をベースに、ハンズオンイベントを開催しました(PyConJPのTalkの増補改訂版) Pythonではじめる強化学習 OpenAI Gym 体験ハンズオン 講義資料の方が図解が豊富なので、数式とかちょっと、という場合はこちらがおすすめです。 Tech-Circle #18 Pythonではじ

    ゼロからDeepまで学ぶ強化学習 - Qiita
  • 強化学習とは何か、調べてみた - のんびりしているエンジニアの日記

    皆さんこんにちは お元気ですか。私は元気です。 今日は強化学習の勉強がてらメモを書いてみました。 個人的には最近、注目している分野で、ゴールがあるような(クラス分類やRegression) 機械学習と異なり、汎用的に色々問題が解けそうだからというのが理由です。 (なんか色々語弊を生みそう) 間違っていれば教えて下さい。 強化学習 強化学習における要因 Policy Reward Function Value function model of the environment 強化学習で解ける問題 参考文献 強化学習 強化学習はある環境ないにおけるエージェントが、 現在の状態を観測し、取るべき行動を決定する問題を扱う 機械学習の一種 by wikipedia この中で登場するのは、「状態」と「行動を決定する」といったところでしょうか。 つまり、「ある状態の時に、どう行動をするか」といったこと

    強化学習とは何か、調べてみた - のんびりしているエンジニアの日記
  • 1