techtech0521のブックマーク - はてなブックマーク

B'zの歌詞をPythonと機械学習で分析してみた〜Word 2 Vec編〜 - 下町データサイエンティストの日常

1. 本Part概要こんにちは。pira_ninoです。早速のお知らせなのですが、本編から超絶優秀な友人のtaijest君も編集に加わってもらっています。これに伴いブログのタイトルも若干変更しました。さて本題に戻ります。前PartではB'zの歌詞を「LDA」を用いた曲のクラスタリングを行いました。皆様のおかげで週間のランキングで11位に載りました！！ありがとうございます！！ pira-nino.hatena blog.com blog.hatena blog.com 本Partでは最近流行りの「Word 2 Vec」を用いて単語の意味の分析を行なっていきます。目標としましては、B'zの歌詞を用いて「きれい」に意味が近い単語は何かや「あなたと恋するためには僕には何が必要か」といった分析を行っていきます。 Word 2 Vecを用いた分析の目標 2. Word 2 Vecとは早速、本

techtech0521 2024/02/16

あとで読む

リンク

傾向スコアを用いた因果推論入門~理論編~ - 下町データサイエンティストの日常

0. はじめに 1. 因果推論~施策の本当の効果~ 1.1 TVのCMを見るとアプリのプレイ時間が短くなる！？ 1.2じゃぁ理想的な比較方法は？ 1.3 背景要因を揃えた比較が難しい問題 1.4 反実仮想：仮に「xxxしたら / しなかったら」の効果算出 2. 傾向スコアを用いた効果測定 2.1 絶対にこの条件は守ろう ~ 「SUTVA」/「強く無視できる割り当て条件」~ 2.1.1 SUTVA 2.1.2 強く無視できる割り当て条件 2.1.3 どうやって条件が成り立ってるか確認するの？ 2.2 傾向スコアとは 3. 傾向スコア算出 3.1モデリング 3.2モデルの評価 4. 傾向スコアを用いたマッチング 4.1 マッチングのお気持ち 4.2 様々なマッチング手法 4.3 マッチングのメリット / デメリット 4.4 マッチングの評価 4.5 そもそも傾向スコアをマッチングに用いるべ

techtech0521 2023/08/26

あとで読む

リンク

自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常

こんにちは。nino_piraです。先日、強化学習の資料の引用ツイートをしましたら、それなりに伸びたので、「もしかして、みんな強化学習に興味ある！？」と思い自分が読んだ&好きな資料をまとめてます。また、ブログを書いているうちに「何を持って基礎とするか」などカテゴライズも自分の中でも行方不明になっていましたので、色々思うところはあると思いますが、暖かい目で読んで頂ければ幸いです。。。。あくまでも私の経験強化学習基礎系 [Qiita] DQN（Deep Q Network）を理解したので、Gopherくんの図を使って説明 [書籍]これからの強化学習 [pdf] (小南さん作成) 強化学習入門 [pdf] (通称) Sutton本第2版 [書籍] 機械学習スタートアップシリーズ　Pythonで学ぶ強化学習 [ブログ]強化学習もう少し強化学習を詳しく知りたい系の人へ [書籍]速習強化学

techtech0521 2023/08/07

あとで読む

リンク

データサイエンティスト見習い新卒1年目が終わる - 下町データサイエンティストの日常

1. 新卒1年目が終わるこんにちは。pira_ninoです。表題の通り、新卒1年目が終わりました。。。いつまで「見習い」と名乗っていいのですかね(苦笑せっかくの区切りなので、「受託分析会社の1年目が何をしているか」を自分の経験に基づいて書いていこうかなぁと思います。 2. 注意書き受託分析なので、基本クライアントの名前が出る話は一切出せません。つまり、具体的な仕事内容については書けません。これ故に、受託分析会社のデータサイエンティストは勉強会などの表舞台になかなか出てこないのかなぁと思っています。自分も色々話したいことはありますが、表舞台に出すのはやはり難しいです(汗また、私の所属会社を一部の方はご存知かと思いますが「一応個人のブログ」であることをご了承ください。本記事では、「ふわっと」受託分析会社の1年目が何をしているかをお伝え出来ればと思います。 3. 全体的には良

techtech0521 2023/08/04

あとで読む

リンク

傾向スコアを用いた因果推論入門~実装編~ - 下町データサイエンティストの日常

0. はじめに 1. 対象データ 2. 先に各手法の結果を確認 3.準備 4. 基礎集計~CMを見た人と見ていない人での目的変数の差~ 5. 因果推論の流れのおさらい 6. 傾向スコアモデリング 6.1 モデリング 6.2 テスト / コントロールの傾向スコアの可視化 6.3Rでの傾向スコアモデリングの実装 7. 傾向スコアマッチング 7.1 結構面倒なpython 7.2 R (Matchingライブラリ) 7.3マッチングの評価 8.IPW 9. ダブルロバスト 9.1 回帰モデル 9.2ダブルロバスト 10.Proximityマッチング 11.改めて、各種手法による推定因果効果のまとめ 12.まとめ 0. はじめに理論編に引き続き、実装を行なっていきます。 pira-nino.hatena blog.com 実装はpythonとRの両方で行いました。作業用のコードは以下のgithu

techtech0521 2023/08/03

あとで読む

リンク

B'zの歌詞をPythonと機械学習で分析してみた〜LDA編〜 - 下町データサイエンティストの日常

1. 本Part概要前PartではB'zの歌詞を「TF-IDF」を用いた分析を行いました。本Partではトピックモデルの一つである「LDA」を用いた分析についてお話しします。 pira-nino.hatena blog.com 2. LDAとは 2.1 LDAのイメージ先に簡単な説明をしてしまいます。 LDAは「たくさんの文書データから単語のグルーピングを行う」モデルです。このグループ1つ1つを「トピック」と呼びます。例えば、大量のニュース記事にLDAを適用する例を考えます。ニュース記事データにLDAを適用した例 LDAでは「各トピック（トピック数は予め指定）における各単語の所属確率」が算出されます。理論的なことはさておき、文書データから単語をいくつかのグループに自動で分けてくれる手法との理解で大丈夫です。よく勘違いされることとして以下の2点を示します。トピック数（いくつ

techtech0521 2023/05/30

あとで読む

リンク

はてなブックマーク

タグ

ブックマーク / pira-nino.hatenablog.com (6)

お知らせ

月間はてなブックマーク数ランキング（2025年5月）

今週のはてなブックマーク数ランキング（2025年6月第1週）

今週のはてなブックマーク数ランキング（2025年5月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス