タグ

ブックマーク / rmizutaa.hatenablog.com (7)

  • 状態空間モデルのれんしゅう(レストランの来客予測) - rmizutaの日記

    はじめに 時系列解析を行う上で、状態空間モデルが現状使用できる手法の中で優れているのではと自分の中で話題だったので、 使ってみることにしました。 状態空間モデルを使うことの目的 時系列解析を行う上でもモデルの種類は無数にあるのですが、 どういう場合に状態空間モデルを使うのでしょうか? この部分については以下のサイトに詳しく書かれていました。 https://logics-of-blue.com/%E3%81%AA%E3%81%9C%E7%8A%B6%E6%85%8B%E7%A9%BA%E9%96%93%E3%83%A2%E3%83%87%E3%83%AB%E3%82%92%E4%BD%BF%E3%81%86%E3%81%AE%E3%81%8B/ 状態空間モデルはデータが得られるプロセスとは何か?を重視したモデルであり、 回帰分析よりも各要因の影響が納得性の高い形で見ることができ、またその構

    状態空間モデルのれんしゅう(レストランの来客予測) - rmizutaの日記
    sh19910711
    sh19910711 2024/04/17
    "状態空間モデル: データが得られるプロセスとは何かを重視したモデル + 各説明変数がどう作用しているかを理解できる形で出せる + その構造が機械学習手法よりも理解しやすい" 2019
  • あてはまりのよい確率分布を探したい - rmizutaの日記

    はじめに データを眺めていると、ある分布に対してそれが正規分布に従うのか、対数正規分布か、それともガンマ分布の方が近いのか?、というようにどの分布の当てはまりがよいかが気になることがあると思います。 これを確認する方法を探してみたところ、scipy.statsを使えばできそうだったのと、fitterというライブラリもあったので、それらを試してみた結果を記述します。 実験 scipyを使う 実装はnumpy - Fitting empirical distribution to theoretical ones with Scipy (Python)? - Stack Overflowを少しだけ修正したものです。入力に対してscipy.statsに登録されているすべての確率分布のパラメータを最尤推定した結果の平均二乗誤差を比較することで最もあてはまりのよい分布を求めます。 scipyには80

    あてはまりのよい確率分布を探したい - rmizutaの日記
    sh19910711
    sh19910711 2023/01/10
    2020 / "正規分布に従うのか、対数正規分布か、それともガンマ分布の方が近いのか?、というようにどの分布の当てはまりがよいかが気になることがある / scipy.statsを使えばできそう + fitterというライブラリもあった"
  • CM視聴の効果を推定する(負の二項分布編) - rmizutaの日記

    はじめに 前回 は、ゼロ過剰ポアソンを用いてCM視聴がゲームのプレイ時間に与える効果の測定を行いました。 ゲームのプレイの有無に与える効果の部分はうまく推定できましたが、 ゲームをプレイする時間に与える効果はポアソン分布ではうまく推定することができませんでした。 この部分もうまく推定できるよう、階層ベイズやゼロ過剰負の二項分布等を試してみましたが、そちらはうまくいかず、最終的にゲームのプレイ時間をスケールすると普通の負の二項分布に当てはまりが良くなったので、その結果を書いていきます。 負の二項分布について 負の二項分布については下記の資料がわかりやすかったです。 https://www.slideshare.net/simizu706/ss-50994149 負の二項分布は、下記のようなある成功率pで、r回正解するまでに必要な失敗回数を示す分布で、過分散対策としてよく使われるようです。 (

    sh19910711
    sh19910711 2022/12/29
    2019 / "プレイ時間で考えるとヘビーユーザが大きく平均値に影響を与えてしまうことが考えられ / ユーザ属性への依存度が高いため、多少CMの影響で新規プレイヤーが増えても、あまり結果に影響を与えないのではないか"
  • ランチ最適化問題(バンディットアルゴリズム編) - rmizutaの日記

    はじめに 日々の生活を営む上で、ランチをどこでべるかということは非常に重要な問題です(2回目)。 前回はこの問題を最適停止問題と捉えて探索と活用の最適点探索を行いましたが、最適停止問題では一度見逃した店はもう選択できないという制約がありました。 飲店で考えると一度利用した店をもう一度利用することが可能なので、 この問いに対してはバンディットアルゴリズムを用いた方が適していると考えられます。 そのため今回はバンディットアルゴリズムを用いた場合の実験を行います。 参考図書 バンディット問題の理論とアルゴリズム ベイズ推論による機械学習入門 バンディットアルゴリズムについて 以下のスライドが分かりやすいです。 https://www.slideshare.net/greenmidori83/ss-28443892 バンディットアルゴリズムは例えばカジノのスロットマシーンのように、報酬が不明な

    ランチ最適化問題(バンディットアルゴリズム編) - rmizutaの日記
    sh19910711
    sh19910711 2022/06/04
    "人間には飽きがあるので、前回選択した店舗にはマイナス値の補正をかけるという方法をとるとより選択する店舗が分散するようになり実際のケースに近づけることができそう"
  • Atcoder Heuristic Contestの順位とアルゴリズムのレートの関係性を眺める - rmizutaの日記

    はじめに Atcoder Heuristic Contest(AHC)は最適解を出すのが難しい問題に対し、出来るだけ良い解を作成するコンテストで、 開催期間が1週間以上の長期コンテストと、1日未満の短期コンテストがあります。 ABC/ARC/AGCのような最適解を求めるアルゴリズムコンテストとは性質の異なるものにはなるのですが、 体感としてアルゴのレーティングが相対的に低い人は長期コンテストの方が良い順位がとりやすい感じがしたので、 それをデータを見て確認したいと思います。 必要なデータはAtCoderの順位表のページのURLに/jsonをつければjson形式で取得できるので、それを利用しています。 コンテスト種別 現在まででRatedのヒューリスティックコンテストは9回開催されており、 うち5回が短期、4回が長期コンテストでした。 コンテスト名 開催期間 種別 AtCoder Heuri

    Atcoder Heuristic Contestの順位とアルゴリズムのレートの関係性を眺める - rmizutaの日記
    sh19910711
    sh19910711 2022/01/13
    "若干ですが長期コンテストの方がばらつきが大きいように見えます / 30位以内に絞ると長期と短期で傾向に違い > 青色以下の人が30位以内に入る比率が短期だと平均20%程度なのに対し、長期だと50%近くまで増加"
  • 書籍レビューを用いた潜在表現の獲得とクラスタリングの実施 - rmizutaの日記

    はじめに 書籍に関連する情報を用いてその潜在表現をうまく獲得することで、 以下のようなことができないかなーと考えています。 自身の読書済みのと照らし合わせて カテゴリごとの網羅率の算出 を読んだ時に得られる情報量の算出 該当のの完読可能性の推定 を読むための事前知識の十分性確認 今回のスコープ 書籍に関する情報の1つであるレビュー情報を用いて潜在表現を作成し、 クラスタリングを行うことでその有効性の確認を行います。 潜在表現の作成は以下の2通りの方法で行いました。 1.TFIDF+LDA 2.Sentence-BERT 実施したこと ブクログの2020年の登録者数の多い1000冊に対しレビューを取得、そこから30件以上レビューがある429冊に絞り30579件のレビューを元に書籍の潜在表現を生成しクラスタリングを行いました。 1.TFIDF+LDA TFIDFで単語の出現頻度を元にし

    書籍レビューを用いた潜在表現の獲得とクラスタリングの実施 - rmizutaの日記
    sh19910711
    sh19910711 2021/07/17
    “レビューは本の内容をそのまま反映しているわけではなく、読んだ人自身がもつフィルタを通した出力 / 人によって印象に残る場面や感じ方に幅がある小説は出力結果が安定しないのではないかと感じました”
  • AtCoderの問題難易度を項目反応理論を用いて推定する - rmizutaの日記

    はじめに AtCoder競技プログラミングのサイトです。ほぼ毎週のようにコンテストが開催され、参加者が複数の問題を解き、解いた問題数とその早さから順位がつきます。また各参加者はレーティングを持っていて、そのレーティングが順位によって変化するというシステムになっています。 コンテストの問題には100,200,300などの得点がついており、これが難易度の目安となるのですが、同じ400点の問題でもこれは簡単すぎでは?というときから絶対無理…となるときもあるので、実質の難易度は得点とは少しずれが生じていると考えられます。 特にAGC(AtCoder Grand Contest)や企業コンテストは通常のABC(Atcoder Beginner Contest)やARC(Atcoder Regular Contest)と同じ得点でも難易度が結構異なるように感じます。 今回はこのテーマに対し、項目反応

    AtCoderの問題難易度を項目反応理論を用いて推定する - rmizutaの日記
  • 1