タグ

2024年3月12日のブックマーク (13件)

  • 簡単な迷路問題を例に強化学習を実装 〜テーブルのQ学習とDQN〜 - Qiita

    S: スタート G: ゴール W: 壁 このような複数経路ある迷路を、スタートからゴールまで最短で到達することを目指します。 ちなみにこの迷路は迷路自動作成ツールを使って作りました。 エージェントはマップ全体を見ることができず、上、下、左、右の4つのどれかの行動をした結果、移動できれば移動し、移動できなければ(壁なら)その場に留まります。 暗闇で移動しているイメージです。 移動した結果、ゴールならゴールであると認識できます。 テーブルのQ学習 実装部分 呼び出し側 Qテーブル テーブルのQ学習では、「状態$s$ $\times$ 行動$a$」の価値を表すテーブル$Q(s, a)$を持ち、これを更新していくことで学習を進めます。 迷路の例では、状態$s$は位置情報、行動$a$は上下左右の4つです。 学習(更新式) 状態$s$で行動$a$を選択して、状態$s'$になったときに、価値テーブル$Q

    簡単な迷路問題を例に強化学習を実装 〜テーブルのQ学習とDQN〜 - Qiita
    sh19910711
    sh19910711 2024/03/12
    "古典的なテーブルのQ学習とそれをニューラルネットで表したDQNの実装 / Deep Q Network(DQN): 行動した履歴を蓄えておく + 学習に使うデータは蓄えられたメモリからランダムにサンプリング / 一定確率でランダムな行動" 2021
  • [20240220 第38回MLOps勉強会] MLflowを用いたLLMモデル開発と評価

    sh19910711
    sh19910711 2024/03/12
    "MLflow: DLやLLM向けの機能がかなり増 / LLMOps: プロンプトのみでタスクへの適用が可能 + タスクの多様化と複雑化によるベンチマーク評価の難しさ / Databricks Model Serving: MLflow Modelをデプロイ + ダッシュボード化"
  • GMI44@Music and Language研究のサーベイ報告

    sh19910711
    sh19910711 2024/03/12
    "Music Understanding LLaMA: 音楽信号に対するQ&Aを実現 + Audio Encoder=>MERT [Li 24], Text Decoder=>LLaMA-2 / MERTからの出力にAdapterという機構を通して、それをDecoderの最終層に入力" arXiv:2308.11276
  • Agents for Amazon Bedrock で AWS アップデート解説くん Slack アプリを作成する - Qiita

    Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

    Agents for Amazon Bedrock で AWS アップデート解説くん Slack アプリを作成する - Qiita
    sh19910711
    sh19910711 2024/03/12
    "投稿に含まれる URL を参照し、要約を日本語で投稿 / Bedrock コンソールの Agents から Create Agent / Idle session timeout では Amazon Bedrock が会話履歴を保持する期間を設定 + デフォルト 30 分 / Agent instruction は最大 1,200 文字という制限"
  • [書評]ビジネスモデル・ナビゲーター

    久々の書評プログラマー向けに簡単に説明すると、ビジネスモデル版デザインパターン。 それだけだとあんまりなので、もう少し詳しく書く。知ってる人にとっては当たり前なんだけど、イノベーションが全く新規のアイディアであるってのはかなりのレアケースで、実際には既存の考え方の組み合わせだったりすることがかなり多い。書では、成功企業のビジネスモデルを55種類のパターンとして分類している。 イノベーションを科学的に考えるというのは、関わっているチームゼロイチでもやっていることなので、興味深く読んだ。 PART 1 で、これらのパターンを使ってどうやってビジネスモデルを変革していくかの方法について述べていて、PART 2で実際の55パターンを説明している。 55のパターンは、知っているものも多いけど、説明されてあーなるほどってのもあったり、Pay Per Use と Performance-based

    sh19910711
    sh19910711 2024/03/12
    "イノベーションが全く新規のアイディアであるってのはかなりのレアケース / 本書では成功企業のビジネスモデルを55種類のパターンとして分類 / 同じだと思っていたのに本質的には違っていたり、というのがあったり" 2017
  • bnlearnを使ってベイジアンネットワーク分析をやってみた - Qiita

    はじめに データ分析をやっていて、因果関係を知りたくなるのは世の常。特に複数の変数があって、それがお互いにどのように影響しているのか、ぱっと見ただけで分かるようなものはないのかと思って古典的ながらもベイジアンネットワーク分析をやってみました。 <環境> Windows Subsystem for Linux、Ubuntu 18.04、R 3.6.2(Jupyter Notebook) ベイジアンネットワークとは こちらのページによると、”「原因」と「結果」の関係を複数組み合わせることにより、「原因」「結果」がお互いに影響を及ぼしながら発生する現象をネットワーク図と確率という形で可視化したものです。過去に発生した「原因」と「結果」の積み重ねを統計的に処理し、『望む「結果」に繋がる「原因」』や『ある「原因」から発生する「結果」』を、確率をもって予測する推論手法ともいえます。この考え方は人がさま

    bnlearnを使ってベイジアンネットワーク分析をやってみた - Qiita
    sh19910711
    sh19910711 2024/03/12
    "複数の変数があって、それがお互いにどのように影響しているのか、ぱっと見ただけで分かるようなものはないのか / ベイジアンネットワークをさくっとやるにはpythonよりもRの方がパッケージが充実" 2020
  • MLflow Tracking を用いた実験管理 / ayniy-with-mlflow

    atmaCup#5 振り返り会」での発表資料 - connpass: https://atma.connpass.com/event/178585/ - Competition GitHub: https://github.com/upura/atma-comp05 - Ayniy GitH…

    MLflow Tracking を用いた実験管理 / ayniy-with-mlflow
    sh19910711
    sh19910711 2024/03/12
    "ipynbを大量生成: どれで・何やって・どうだったか分からない + GitHubで差分が見づらい / MLflow Tracking: 実験管理の手助けツール / All You Need is YAML: 実験で書くのは*.yamlのみ + 差分が見やすく + アイディア部分に注力できる" 2020
  • BigQuery Emulator をアップデートしました - Route54

    BigQuery Emulator の v0.6.0 をリリースしました。 今回のリリースでは、Recidiviz社 の @ohaibbq さんが多大な貢献をしてくださいました。Recidiviz社ではかなり前から BigQuery Emulator を使ってくれているようで、以前から Issue や DM などでそのことを伝えてくれていましたが、@ohaibbq さんが今Qエミュレータの改善にコミットできるということで、 Recidiviz社側で fork して使っていたものに加えていた patch をたくさん送ってくれました。 かなり多くの改善が入っているので、以前エミュレータを試して動かなかったクエリを再度試す良い機会かなと思っています。 @ohaibbq さんからは、嬉しいことに今後も貢献してくださると言っていただけているので、今後の改善も速いペースで進んでいくと思います。素晴らし

    BigQuery Emulator をアップデートしました - Route54
    sh19910711
    sh19910711 2024/03/12
    "BigQuery: Google はエミュレータの開発に4年前くらいにやる気は見せていますが、その後何もアクションをとっていません / go-zetasql の cgo 依存をやめて、WebAssembly ベースのバインディングに移行しようとしています"
  • 勉強会報告『言語処理研究会 「自然言語処理の中長期研究構想を論じる会」』

    言語処理研究会 「自然言語処理の中長期研究構想を論じる会」を聞きに行きました。 このシンポジウムは、6名の「中長期の自然言語処理関連プロジェクトを推進している研究者」の方々に「研究構想や成果の大きな絵を語っていただき」、「言語処理が今後進むべき方向性について一段高い視点からの議論を狙」うというシンポジウムでした。大きなプロジェクトのリーダーをされているような先生方が、どんなプロジェクトを今運営しているのか解説してくれるということで、研究者ではない素人の我々にとっては、最近注目を浴びている話題について概観できる良い機会だったと思います。 「データを言語で記述する」は東工大の高村先生の講演でした。「サッカーの試合の解説の自動生成」を目標に、時系列データに対して文章を生成する、という話でした。天気予報の文章の生成などは、ちょっと変なところもある、ぐらいの感じになっているようにも思います。 「クロ

    勉強会報告『言語処理研究会 「自然言語処理の中長期研究構想を論じる会」』
    sh19910711
    sh19910711 2024/03/12
    "データを言語で記述する: 「サッカーの試合の解説の自動生成」を目標に、時系列データに対して文章を生成 + 天気予報の文章の生成などは、ちょっと変なところもある、ぐらいの感じ" 2017
  • LSTM+トピック - studylog/北の雲

    全国的にはそろそろ春なんでしょうか。札幌は段々と暖かくなってきましたが今日の夜は氷点下6度だそうです。北海道の冬は長い。早く自転車に乗りたいです。 LSTMでの文生成の限界 狭い分野に限られたコーパスだとそれなりの文を生成できますが、ニュースやwikipediaなど幅広い分野の単語が登場するコーパスだとほとんど文になりません。wikipediaコーパスだとこういうやつを平気で出力してきやがります。 情報化社会における織田信長のコンスタンティノープルの陥落については諸説ある。 文法は正しいけど意味がめちゃくちゃ。 ようするに名詞が駄目。accが0.35ぐらいの言語モデルを品詞ごとに調べてみると助動詞は0.5、助詞0.4、動詞0.35に対して名詞は0.05でした。登場頻度は名詞が最も高いのにaccが低すぎるために意味が通らない文になってしまう。 トピックを入れる そこで、文生成時に今生成しよう

    LSTM+トピック - studylog/北の雲
    sh19910711
    sh19910711 2024/03/12
    "LSTM: 狭い分野に限られたコーパスだとそれなりの文を生成 / 登場頻度は名詞が最も高いのにaccが低すぎるために意味が通らない文になってしまう / CLSTM: 前の文やパラグラフのトピックを入れる" arXiv:1602.06291 2016
  • 道場で学んだ「ゲームとは何か」を踏まえて3~4時間でゲーム作った話と反省 - 雑念日記

    Ruby Game Developing Advent Calendar 2016 13日目の記事です。 12日目はmirichiさんの「Rubyの標準添付ライブラリFiddleでゲームプログラミングする」でした。 DLとかFiddleとかほとんど使ったことないです勉強しますハイ。Ruby-FFIはちょっと触ったことありますが何か作ったかというとそうでもなく。 gistに貼ってくださったコードを動かしてみたらこんな感じでしたスゴイ。これは是非手元で色々いじくって動かしてみるべきですね。 さて稿ですが、日記的なもので特にお役立ち情報などはありません、ご了承を。(言質) ただ申し訳程度に動かせるコードをいくつか含んではいます。 「ゲームとは何か」を子どもたちと学ぶ 去る12月10日(土)に島根県は松江市で実施されたプログラミング道場:ProgShouDojoにアシスタントとして参加してきまし

    道場で学んだ「ゲームとは何か」を踏まえて3~4時間でゲーム作った話と反省 - 雑念日記
    sh19910711
    sh19910711 2024/03/12
    "ルールを追加することは簡単ですが、「それがどんな制約(報酬)をもたらすか」「ユーザにどんな計算やテクニックを要求するか」ということをちゃんと考えなくてはいけない" 2016
  • 会社にも人格があるし、伝えるべき | 波乗りスタッフ日記/Web制作会社サーフボード

    sh19910711
    sh19910711 2024/03/12
    "会社は人間同士に比べて、人格を伝えにくい / お金のやり取りが発生しないと付き合うことができません / 企業理念や就業規則という会社の人格に関わることを制定して対外的にアピールする" 2008
  • 六本木ではたらくCFOの「自由奔放に生きよう!」ブログ : インターネット企業における法務部門の重要性 (1) 最強の法務部門

    sh19910711
    sh19910711 2024/03/12
    "最強のインターネット企業たりうるには最強の法務部門が必要 / 特殊な資本政策の遂行/各国での検索エンジン提供/YouTube運営、数多くのM&A;案件のハンドリングなどを可能にしているのは世界最強の法務部門の存在" 2008