はてなブックマークアプリ

サクサク読めて、
アプリ限定の機能も多数!

アプリで開く

はてなブックマーク

  • はてなブックマークって?
  • アプリ・拡張の紹介
  • ユーザー登録
  • ログイン
  • Hatena

はてなブックマーク

トップへ戻る

  • 総合
    • 人気
    • 新着
    • IT
    • 最新ガジェット
    • 自然科学
    • 経済・金融
    • おもしろ
    • マンガ
    • ゲーム
    • はてなブログ(総合)
  • 一般
    • 人気
    • 新着
    • 社会ニュース
    • 地域
    • 国際
    • 天気
    • グルメ
    • 映画・音楽
    • スポーツ
    • はてな匿名ダイアリー
    • はてなブログ(一般)
  • 世の中
    • 人気
    • 新着
    • 新型コロナウイルス
    • 働き方
    • 生き方
    • 地域
    • 医療・ヘルス
    • 教育
    • はてな匿名ダイアリー
    • はてなブログ(世の中)
  • 政治と経済
    • 人気
    • 新着
    • 政治
    • 経済・金融
    • 企業
    • 仕事・就職
    • マーケット
    • 国際
    • はてなブログ(政治と経済)
  • 暮らし
    • 人気
    • 新着
    • カルチャー・ライフスタイル
    • ファッション
    • 運動・エクササイズ
    • 結婚・子育て
    • 住まい
    • グルメ
    • 相続
    • はてなブログ(暮らし)
    • 掃除・整理整頓
    • 雑貨
    • 買ってよかったもの
    • 旅行
    • アウトドア
    • 趣味
  • 学び
    • 人気
    • 新着
    • 人文科学
    • 社会科学
    • 自然科学
    • 語学
    • ビジネス・経営学
    • デザイン
    • 法律
    • 本・書評
    • 将棋・囲碁
    • はてなブログ(学び)
  • テクノロジー
    • 人気
    • 新着
    • IT
    • セキュリティ技術
    • はてなブログ(テクノロジー)
    • AI・機械学習
    • プログラミング
    • エンジニア
  • おもしろ
    • 人気
    • 新着
    • まとめ
    • ネタ
    • おもしろ
    • これはすごい
    • かわいい
    • 雑学
    • 癒やし
    • はてなブログ(おもしろ)
  • エンタメ
    • 人気
    • 新着
    • スポーツ
    • 映画
    • 音楽
    • アイドル
    • 芸能
    • お笑い
    • サッカー
    • 話題の動画
    • はてなブログ(エンタメ)
  • アニメとゲーム
    • 人気
    • 新着
    • マンガ
    • Webマンガ
    • ゲーム
    • 任天堂
    • PlayStation
    • アニメ
    • バーチャルYouTuber
    • オタクカルチャー
    • はてなブログ(アニメとゲーム)
    • はてなブログ(ゲーム)
  • おすすめ

    新内閣発足

『@pocokhcのマイページ - Qiita』

  • 人気
  • 新着
  • すべて
  • 話題のDeepSeekで使われている強化学習GRPOを調べてみた - Qiita

    4 users

    qiita.com/pocokhc

    はじめに 話題のDeepSeekですが、技術的な観点だと強化学習手法の改善が大きいようで気になったので調べてみました。 ただ参考のメンダコさんのブログが分かりやすくて… 記事にする必要あるか?と思ったけど途中まで作っていたのであげておきます。 GRPOを簡単に言うと、PPOからCriticをなくし、代わりにグループスコアからアドバンテージを推定する手法です。 これによりCriticの学習がなくなり、大幅な学習時間の短縮を実現した内容となります。 参考 (論文) DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models (論文) DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learn

    • テクノロジー
    • 2025/02/06 19:24
    • ED法+交差エントロピーをTF/Torchで実装してみた(おまけでBitNet×ED法を検証) - Qiita

      4 users

      qiita.com/pocokhc

      ED法の記事その3です。 その1:金子勇さんのED法を実装してMNISTを学習させてみた その2:ED法を高速化してその性能をMNISTで検証してみた もう記事を書く予定はなかったんですが、思ったより頭から離れなかったので記事に起こしました。 今回はED法をTorchとTFで実装し交差エントロピーとReLUを実装しました。 なので正規のMNISTを学習してみたいと思います。 最後にBitNet×ED法を試して考察しています。 本記事を含めたED法のコードをGithubに作成しました。 追加の実装 ED法+交差エントロピー まずは今までの平均二乗誤差(MSE;Mean Squared Error)のイメージです。 MSEのlossは(正解データ-出力)で表され、それをED法で学習します。 次に交差エントロピーのイメージです。 各出力に対してED法ニューラルネットを作成し、その出力達をsoft

      • テクノロジー
      • 2024/05/04 22:19
      • 金子勇さんのED法を実装してMNISTを学習させてみた - Qiita

        121 users

        qiita.com/pocokhc

        最後に$f'$ですが、出力関数(活性化関数)をシグモイド関数と仮定した場合は以下です。 また各重みですが、接続元と先が同種の重みは $w^k_{ij} > 0$、異種の場合は $w^k_{ij} < 0$ の制約を持ちます。 実装 C言語の実装では各レイヤーを行列構造で保持し、リカレント型と見なして再帰的に更新しています。 この記事での実装ではTensorflowっぽくニューロンをモジュール単位として実装しました。 ニューロンのイメージは以下です。 "+"と"-"がある以外は既存のニューロンと変わりません。 コードにしかありませんが、"beta"という入力が全ニューロンに追加されていました。(多分biasと同じ効果?) また、最初の入力値は"+"と"-"に同じ値を分けて使います。(なので必ず入力は2n) 最終的な出力層は"+"ニューロンのみを使います。 1. Neuronクラス # sig

        • テクノロジー
        • 2024/04/20 00:35
        • 機械学習
        • AI
        • アルゴリズム
        • algorithm
        • 大規模言語モデルと強化学習:強化学習にLLMを組み込んで実装してみた(ローカルLLM) - Qiita

          9 users

          qiita.com/pocokhc

          # Torch: https://pytorch.org/get-started/locally/ # Stable(2.2.2) CUDA12.1 > pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121 > python -c "import torch; print(torch.cuda.is_available())" True # Transformers > pip install transformers > python -c "import transformers; print(transformers.__version__)" 4.39.3 1. モデルの選定 各モデルの概要はドキュメントにあるのでそちらを参考にしつつ選びました。(ドキュ

          • テクノロジー
          • 2024/04/07 08:19
          • BitNet b1.58(BitLinear)を実装してMNISTで検証してみた(Tensorflow/Torch) - Qiita

            3 users

            qiita.com/pocokhc

            はじめに 2/27にMicrosoftから BitNet b1.58 に関する論文が発表されました。 これはモデルの推論を従来の小数でするのではなく、ビットで推論する事により速度・メモリを含めたエネルギーの省力化を実現した内容となります。 (ディープラーニングにおいて、こういったモデルを低ビット等に離散化して計算量を減らす技術のことを量子化といいます) (ちなみに私は量子化分野はほとんど分からないので間違っている内容があればすいません…) 論文では主にTransformerの利用に言及していますが、仕組み自体は単純でニューラルネット全般に適用できるので、そちらの視点をメインに書いています。 また、BitNetに関する解説記事はすでに分かりやすい記事があるので、この記事では技術メインに解説していきます。 ・【論文丁寧解説】BitNet b1.58とは一体何者なのか また実装に関してですが、多

            • テクノロジー
            • 2024/03/19 23:03
            • ぼくのかんがえたさいきょうの強化学習アルゴリズム(古典強化学習編) - Qiita

              25 users

              qiita.com/pocokhc

              この記事は自作している強化学習フレームワークの解説記事です。 次:離散制御/MDP編 理論パート はじめに 今までフレームワークを通じて様々な強化学習アルゴリズムを実装してきました。 今回その知識を生かしてオリジナルなアルゴリズムを考えてみたので記事にまとめてみます。 このアルゴリズムは以下の状況でかなりの精度を誇ります。 マルコフ決定過程なモデル 状態が離散で現実的な数 行動が離散で現実的な数 ※"現実的な数"というのは数に上限があり、その上限がそれほど大きくない場合を指します 基本アイデア 基本的なアイデアは探索(Exploration)と活用(Exploitation)の分離です。 強化学習では一般的に「探索と活用のトレードオフの問題」1があり、探索を優先すると報酬が少なくなり、活用を優先すると局所解に陥る可能性が高くなる問題があります。 私が過去に記事で取り上げた手法では、どれも探

              • テクノロジー
              • 2024/02/13 07:31
              • アルゴリズム
              • 機械学習
              • qiita
              • あとで読む
              • 【強化学習】Dreamerを解説・実装 - Qiita

                3 users

                qiita.com/pocokhc

                Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? この記事は自作している強化学習フレームワークの解説記事です。 前:PlaNet 次:DreamerV2 星(Planet)の次は夢(Dream)ですね。 PlaNetの問題点とDreamer PlaNetではダイナミクスモデルで実環境の振る舞いを学習できましたが、プランニングに時間がかかりすぎました。 そこでプランニング(アクションの探索)とアクションの選択を切り離すことでプランニングにかかる時間を回避した手法がDreamerです。 Dreamer ダイナミクスモデルはPlaNetと同じですが、プランニング用に新しくAction/Val

                • テクノロジー
                • 2023/06/18 16:01
                • 【強化学習】World Modelsを解説・実装 - Qiita

                  4 users

                  qiita.com/pocokhc

                  この記事は自作している強化学習フレームワークの解説記事です。 次:PlaNet World Models 参考 ・論文:https://arxiv.org/abs/1803.10122 ・作者のblog:https://worldmodels.github.io/ ・コードサンプル:https://paperswithcode.com/paper/world-models ・(論文)World Models(2018) | Qiita ・機械学習論文読み:World Models | Qiita ・World Models (the long version) | ADG Efficiency 1. 動機 私たちの脳は日常生活にある膨大な情報を扱うために、空間的・時間的な側面を抽象化して学習しています。 (画像は論文より引用、脳内では自転車が抽象化されている) この脳内で抽象化された予測モ

                  • テクノロジー
                  • 2022/09/03 22:03
                  • 機械学習
                  • 【強化学習】MuZeroを解説・実装 - Qiita

                    6 users

                    qiita.com/pocokhc

                    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? この記事は自作している強化学習フレームワーク SimpleDistributedRL の解説記事です。 前:AlphaZero 次1:Stochastic MuZero 次2:EfficientZeroV2 今回はAlphaZeroの後継であるMuZeroについて解説します。 MuZero AlphaZeroは木探索時にゲームのルールを使うという問題がありました。 (1手進めた後、盤面の状態を知る必要がある) これではルールを知っている環境にしかAlphaZeroが使えないので、強化学習で一般的に想定されるマルコフ決定過程(MDP)の環

                    • テクノロジー
                    • 2022/08/11 12:07
                    • 強化学習
                    • 【強化学習】モンテカルロ木探索を解説・実装 - Qiita

                      5 users

                      qiita.com/pocokhc

                      この記事は自作している強化学習フレームワーク SimpleDistributedRL の解説記事です。 次:AlphaZero はじめに モンテカルロ木探索は強化学習のアルゴリズムというより木探索アルゴリズムの一種という位置付けです。 ただこれの発展系として、AlphaGo,AlphaZero,MuZeroといった有名なアルゴリズムがあるのでまずは説明していきたいと思います。 また以前に記事(第11回 今更だけど基礎から強化学習を勉強する モンテカルロ木探索編)を書いていますが、フレームワークに沿った内容として改めて書いています。 モンテカルロ法(Monte Carlo method; MC) モンテカルロ法をざっくり言うと、適当な回数ランダムに実行してみてその結果から結論を導くアルゴリズムです。 主に確率または期待値の近似値を求める手法として使われます。 (強化学習では予測値を求める手法

                      • テクノロジー
                      • 2022/07/09 01:04
                      • プログラミング
                      • 【強化学習】DQNを解説・実装 - Qiita

                        3 users

                        qiita.com/pocokhc

                        この記事は自作している強化学習フレームワーク SimpleDistributedRL の解説記事です。 DQNについては昔記事を書いていますが、知識も更新されているので改めて書いています。 前:Q学習 次:Rainbow DQN(Deep Q-Networks) 略称がネットスラングと重なったのは偶然らしいです。 また、時代背景的に初めて強化学習に深層学習(ニューラルネットワーク)の技術を採用して成果を出したことで有名になった手法となります。 Q学習の一番の問題点は、状態が離散かつ有限状態でしか表現できなかったことです。 例えば以下のマリオの位置を考えます。 マリオの座標が 1.1 と 1.11 はほぼ同じ状態とみて問題ありません。 しかし、Q学習ではこれが別の状態と認識されてしまいます。 こういう連続値は状態数が無限になるのでQ学習では学習ができません。 そこでQテーブルをニューラルネッ

                        • テクノロジー
                        • 2022/06/04 14:01
                        • Kaggleで書いたコードの備忘録その2~自然言語処理まとめ~(形態素解析、TF-IDF、スタッキング等) - Qiita

                          3 users

                          qiita.com/pocokhc

                          # import import numpy as np import pandas as pd from matplotlib import pyplot as plt import seaborn as sns import time from tqdm import tqdm # from tqdm.notebook import tqdm # notebook用 from pprint import pprint # データ読み込み df_train = pd.read_csv("/kaggle/input/titanic/train.csv") df_test = pd.read_csv("/kaggle/input/titanic/test.csv") # データをマージ df_test["Survived"] = np.nan df = pd.concat([df_train,

                          • テクノロジー
                          • 2021/08/24 19:02
                          • Kaggleで書いたコードの備忘録その1~データ分析で使った手法一通り~(可視化、データ加工、検証、特徴量抽出、モデル、AutoML等) - Qiita

                            5 users

                            qiita.com/pocokhc

                            Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

                            • テクノロジー
                            • 2021/07/20 20:04
                            • kaggle
                            • pandas
                            • qiita
                            • python
                            • 第7回 今更だけど基礎から強化学習を勉強する DDPG/TD3編(連続行動空間) - Qiita

                              3 users

                              qiita.com/pocokhc

                              今回はDDPGを実装してみました。 第6回 PPO編 第8回 SAC編 ※ネット上の情報をかき集めて自分なりに実装しているので正確ではない可能性がある点はご注意ください ※ライブラリはTensowflow2.0(+Keras)を使っています。 コード全体 本記事で作成したコードは以下です。 GoogleColaboratory 追記:自作フレームワークを作成しています。そちらにも実装があります。 DDPG(Deep Deterministic Policy Gradient) DPGは連続行動空間を制御するために考案されたアルゴリズムで、Actor-Criticなモデルを用いて行動価値と方策を学習しますが、方策勾配法を使わずに学習するというちょっと変わった手法になります。 DPGにディープラーニングを適用した手法がDDPGです。 参考 DDPGでPendulum-v0(強化学習, tens

                              • テクノロジー
                              • 2021/05/26 22:04
                              • 最適化アルゴリズムを実装していくぞ(概要) - Qiita

                                3 users

                                qiita.com/pocokhc

                                はじめに 最適化アルゴリズムにおけるメタヒューリスティクスアルゴリズムを主に実装していきます。 メタヒューリスティクスは、問題に依存しないで解を得られることが最大の利点ですが、 実際の問題に対してどうアプローチしていいかがいまいち分かりにくかったのでまとめてみました。 やりたいことは、 できる限りわかりやすく一般化して、問題に対する共通のインターフェースをつくる 各アルゴリズムを比較 です。 また、各アルゴリズムについては別記事にして少しずつ上げていく予定です。 (記事を上げたらリンクをつけていきます) コードはgithubにあります。 対象アルゴリズム 遺伝的アルゴリズム(Genetic Algorithm: GA) 実数型遺伝的アルゴリズム 人口蜂コロニーアルゴリズム(Artificial Bee Colony: ABC) 粒子群最適化(Particle Swarm Optimizat

                                • テクノロジー
                                • 2021/01/09 15:01
                                • Algorithm
                                • 【強化学習】ついに人間を超えた!?Agent57を解説/実装してみた(Keras-RL) - Qiita

                                  19 users

                                  qiita.com/pocokhc

                                  Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? 強化学習の評価でよく使われるAtariのゲームですが、ついに57全てのゲームで人間を超えた手法が現れたようです。 早速実装してみました。 ※ネット上の情報をかき集めて自分なりに実装しているので正確ではない点はご了承ください ※解釈違いの内容がある可能性もご注意ください(理解が追いついていない部分があります) コード全体 本記事で作成したコードは以下です。 github GoogleColaboratory(実行結果付き) ※GoogleColaboratoryはmultiprocessingの相性が悪いらしく1Actorのみの学習となり

                                  • テクノロジー
                                  • 2020/07/12 16:01
                                  • 強化学習
                                  • Keras
                                  • 機械学習
                                  • Python
                                  • あとで読む
                                  • techfeed
                                  • プログラミング
                                  • ゲーム
                                  • KerasのステートレスLSTMとステートフルLSTMの違いについて - Qiita

                                    4 users

                                    qiita.com/pocokhc

                                    Keras のステートレスLSTMとステートフルLSTMの勉強です。 ネット上の情報をかき集めて自分なりに実装しているので正確ではないところがある点はご了承ください。 追記:ステートフルLSTMと hidden state に関して記事を書きました。 Keras のステートフルLSTMと hidden state の関係を調査してみた 目次 KerasのステートレスLSTMとステートフルLSTMについて 実験に使うモデルセットの説明(アルファベット予測) 実験1:「1 文字 => 1 文字」マッピング 実験2:「3 文字特徴ウィンドウ => 1 文字」マッピング 実験3:「3 文字タイムステップ・ウィンドウ => 1 文字」マッピング 実験4:バッチサイズ 実験5:hidden state の保存と設定 コード全体 本記事で作成したコードは以下です。 ※1ファイル完結です。 ※Google

                                    • テクノロジー
                                    • 2019/10/03 02:12
                                    • LSTM
                                    • DeepLearning
                                    • Qiita
                                    • 機械学習

                                    このページはまだ
                                    ブックマークされていません

                                    このページを最初にブックマークしてみませんか?

                                    『@pocokhcのマイページ - Qiita』の新着エントリーを見る

                                    キーボードショートカット一覧

                                    j次のブックマーク

                                    k前のブックマーク

                                    lあとで読む

                                    eコメント一覧を開く

                                    oページを開く

                                    はてなブックマーク

                                    • 総合
                                    • 一般
                                    • 世の中
                                    • 政治と経済
                                    • 暮らし
                                    • 学び
                                    • テクノロジー
                                    • エンタメ
                                    • アニメとゲーム
                                    • おもしろ
                                    • アプリ・拡張機能
                                    • 開発ブログ
                                    • ヘルプ
                                    • お問い合わせ
                                    • ガイドライン
                                    • 利用規約
                                    • プライバシーポリシー
                                    • 利用者情報の外部送信について
                                    • ガイドライン
                                    • 利用規約
                                    • プライバシーポリシー
                                    • 利用者情報の外部送信について

                                    公式Twitter

                                    • 公式アカウント
                                    • ホットエントリー

                                    はてなのサービス

                                    • はてなブログ
                                    • はてなブログPro
                                    • 人力検索はてな
                                    • はてなブログ タグ
                                    • はてなニュース
                                    • ソレドコ
                                    • App Storeからダウンロード
                                    • Google Playで手に入れよう
                                    Copyright © 2005-2025 Hatena. All Rights Reserved.
                                    設定を変更しましたx