machupicchubetaのブックマーク - はてなブックマーク

【それを言ってはいけない！を言う】「データ分析失敗事例集」を読んで - 学習する天然ニューラルネット

はじめに 2023/08/03発売の「データ分析失敗事例集 ―失敗から学び、成功を手にする―」を知り合いのご厚意により頂いたので、読んでみたところ非常に面白かったので、感想をブログにまとめようと思います。 www.kyoritsu-pub.co.jp 全編通していい意味で社会性フィルターが外れていて、これを出版することは非常な苦労があったと察します。著者に敬意を評して、本ブログでも特に配慮などはせずに感想を書いていこうと思います。(何か問題があったらコメント欄で教えてください。コメントは公開前に自分にメールが来るようになってます。) 本書の概要本書ではデータ分析の失敗談を短編小説のように楽しむことができる。技術的な話はあまりないが、一部の専門用語については基本的な理解があると読みやすい。例えば、BERT, 傾向スコア, Redshift, Tydyverseと聞いて、どういうものでど

machupicchubeta 2023/08/06

リンク

githubやnoteでもTeXの数式を書くぜ - 学習する天然ニューラルネット

この記事は何？使い方作成のモチベーション関連するツールまとめこの記事は何？これを作った↓ https://tex-image-link-generator.herokuapp.com/ これを使えば、githubのreadmeやissuesに数式を埋め込むことができる。例えばこんなふうに。 noteやhatena blogなどのmarkdown(HTML)が使えるサービスに転用することもできるはず。使い方言うまでもないですが、上部のtext areaに数式を打ち込んでctrl enter (or ⌘ enter)を押すだけ。 sizeはpreviewのサイズではなく実際に表示されるサイズになってる(previewには反映される)。 resultの右側にcopy to clipboardボタンがあるのでそれをポチッとするのが早いでしょう。得られたリンクをここに貼ってみる。

machupicchubeta 2020/08/09

リンク

特徴量重要度にバイアスが生じる状況ご存知ですか？ - 学習する天然ニューラルネット

なぜこの記事を書いたのか？決定木をベースにしたアルゴリズムのほとんどに特徴量重要度という指標が存在する。データに対する知識が少ない場合はこの指標を見て特徴量に対する洞察深めることができる。KaggleではEDAのときにとりあえず重要度を見てみるなんてこともするようだ。しかし、この特徴量重要度にはバイアスが存在していて、特定の条件下では信用出来ないことがある。そういった条件を広く知ってほしいということでこの記事を書いた。この記事では人工データを生成しバイアスを再現してみた。また、こういったバイアスに対処したという論文を見つけたので軽く紹介する。おまけとしてgainベース以外の特徴量重要度についても紹介する。目次なぜこの記事を書いたのか？想定読者と実験の枠組み想定読者限定する枠組み特徴量重要度とは？特徴量重要度にバイアスが生じる条件 1. 解像度が低い場合 2. 特徴量同士

machupicchubeta 2019/07/16

あとで読む

リンク

特徴量選択の今とこれから - 学習する天然ニューラルネット

特徴量選択とは特徴量選択の難しさ特徴量選択の手法の大別教師ありの特徴量選択 filter method 単変量とクラスラベルの関連性を上げる関係性を上げて冗長性を下げる関係性を上げて多様性を上げる wrapper method Forward SelectionとBackward Elimination 遺伝的アルゴリズムと粒子群最適化その他のwrapper method embedding method L1正則化 Regularized tree 特徴量選択のこれから超高次元データと特徴量選択のアンサンブル不均衡データにおける特徴量オンライン特徴量選択深層学習を用いた特徴量選択最後に特徴量選択とは特徴量選択(Feature Selection, 変数選択とも)はデータサイエンスにおいて非常に重要である。例えば、製造業において欠陥品を判別するタスクを考えてみよ

machupicchubeta 2019/02/11

あとで読む

リンク

ランダムフォレストと検定を用いた特徴量選択手法 Boruta - 学習する天然ニューラルネット

特徴量選択とは Borutaとはとりあえず使ってみるベースラインの判別 Borutaの判別 Borutaのアイデアの概要 Borutaのアルゴリズム 1. 判別に寄与しないはずの偽の特徴量を作る。 2. 偽の特徴量と一緒にランダムフォレストを訓練。 3. 各特徴量の重要度と偽の特徴量の特徴量を比較。 4. 複数回比較し検定を行うことで、本当に重要な特徴量のみを選択。検定について 1. 棄却したい帰無仮説と受容したい対立仮説を用意する。 2. 観測値から検定統計量Tを定める。 3. 帰無仮説が正しいとしてTの分布を求める。 4. 十分小さい有意水準αを定め、帰無仮説が正しいときにとなる領域を棄却域とする。 5. 観測されたTがに入っていたら対立仮説を受容し、入っていなければ帰無仮説を受容する。まとめ補足使う際のTips等 2019/01/06追記参考特徴量選択とは特徴量選択

machupicchubeta 2019/01/06

あとで読む

リンク

はてなブックマーク

タグ

ブックマーク / aotamasaki.hatenablog.com (5)

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / aotamasaki.hatenablog.com (5)

【それを言ってはいけない！を言う】「データ分析失敗事例集」 を読んで - 学習する天然ニューラルネット

githubやnoteでもTeXの数式を書くぜ - 学習する天然ニューラルネット

特徴量重要度にバイアスが生じる状況ご存知ですか？ - 学習する天然ニューラルネット

特徴量選択の今とこれから - 学習する天然ニューラルネット

ランダムフォレストと検定を用いた特徴量選択手法 Boruta - 学習する天然ニューラルネット

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

【それを言ってはいけない！を言う】「データ分析失敗事例集」を読んで - 学習する天然ニューラルネット