タグ

ブックマーク / aotamasaki.hatenablog.com (5)

  • 【それを言ってはいけない!を言う】「データ分析失敗事例集」 を読んで - 学習する天然ニューラルネット

    はじめに 2023/08/03発売の「データ分析失敗事例集 ―失敗から学び、成功を手にする―」を知り合いのご厚意により頂いたので、読んでみたところ非常に面白かったので、感想をブログにまとめようと思います。 www.kyoritsu-pub.co.jp 全編通していい意味で社会性フィルターが外れていて、これを出版することは非常な苦労があったと察します。著者に敬意を評して、ブログでも特に配慮などはせずに感想を書いていこうと思います。(何か問題があったらコメント欄で教えてください。コメントは公開前に自分にメールが来るようになってます。) 書の概要 書ではデータ分析の失敗談を短編小説のように楽しむことができる。 技術的な話はあまりないが、一部の専門用語については基的な理解があると読みやすい。 例えば、BERT, 傾向スコア, Redshift, Tydyverseと聞いて、どういうものでど

    【それを言ってはいけない!を言う】「データ分析失敗事例集」 を読んで - 学習する天然ニューラルネット
  • githubやnoteでもTeXの数式を書くぜ - 学習する天然ニューラルネット

    この記事は何? 使い方 作成のモチベーション 関連するツール まとめ この記事は何? これを作った↓ https://tex-image-link-generator.herokuapp.com/ これを使えば、githubのreadmeやissuesに数式を埋め込むことができる。 例えばこんなふうに。 notehatenablogなどのmarkdown(HTML)が使えるサービスに転用することもできるはず。 使い方 言うまでもないですが、上部のtext areaに数式を打ち込んでctrl enter (or ⌘ enter)を押すだけ。 sizeはpreviewのサイズではなく 実際に表示されるサイズになってる(previewには反映される)。 resultの右側にcopy to clipboardボタンがあるのでそれをポチッとするのが早いでしょう。 得られたリンクをここに貼ってみる。

    githubやnoteでもTeXの数式を書くぜ - 学習する天然ニューラルネット
  • 特徴量重要度にバイアスが生じる状況ご存知ですか? - 学習する天然ニューラルネット

    なぜこの記事を書いたのか? 決定木をベースにしたアルゴリズムのほとんどに特徴量重要度という指標が存在する。データに対する知識が少ない場合はこの指標を見て特徴量に対する洞察深めることができる。KaggleではEDAのときにとりあえず重要度を見てみるなんてこともするようだ。 しかし、この特徴量重要度にはバイアスが存在していて、特定の条件下では信用出来ないことがある。そういった条件を広く知ってほしいということでこの記事を書いた。 この記事では人工データを生成しバイアスを再現してみた。また、こういったバイアスに対処したという論文を見つけたので軽く紹介する。おまけとしてgainベース以外の特徴量重要度についても紹介する。 目次 なぜこの記事を書いたのか? 想定読者と実験の枠組み 想定読者 限定する枠組み 特徴量重要度とは? 特徴量重要度にバイアスが生じる条件 1. 解像度が低い場合 2. 特徴量同士

    特徴量重要度にバイアスが生じる状況ご存知ですか? - 学習する天然ニューラルネット
  • 特徴量選択の今とこれから - 学習する天然ニューラルネット

    特徴量選択とは 特徴量選択の難しさ 特徴量選択の手法の大別 教師ありの特徴量選択 filter method 単変量とクラスラベルの関連性を上げる 関係性を上げて冗長性を下げる 関係性を上げて多様性を上げる wrapper method Forward SelectionとBackward Elimination 遺伝的アルゴリズムと粒子群最適化 その他のwrapper method embedding method L1正則化 Regularized tree 特徴量選択のこれから 超高次元データと特徴量選択のアンサンブル 不均衡データにおける特徴量 オンライン特徴量選択 深層学習を用いた特徴量選択 最後に 特徴量選択とは 特徴量選択(Feature Selection, 変数選択とも)はデータサイエンスにおいて非常に重要である。 例えば、製造業において欠陥品を判別するタスクを考えてみよ

    特徴量選択の今とこれから - 学習する天然ニューラルネット
  • ランダムフォレストと検定を用いた特徴量選択手法 Boruta - 学習する天然ニューラルネット

    特徴量選択とは Borutaとは とりあえず使ってみる ベースラインの判別 Borutaの判別 Borutaのアイデアの概要 Borutaのアルゴリズム 1. 判別に寄与しないはずの偽の特徴量を作る。 2. 偽の特徴量と一緒にランダムフォレストを訓練。 3. 各特徴量の重要度と偽の特徴量の特徴量を比較。 4. 複数回比較し検定を行うことで、当に重要な特徴量のみを選択。 検定について 1. 棄却したい帰無仮説と受容したい対立仮説を用意する。 2. 観測値から検定統計量Tを定める。 3. 帰無仮説が正しいとしてTの分布を求める。 4. 十分小さい有意水準αを定め、帰無仮説が正しいときにとなる領域を棄却域とする。 5. 観測されたTがに入っていたら対立仮説を受容し、入っていなければ帰無仮説を受容する。 まとめ 補足 使う際のTips等 2019/01/06追記 参考 特徴量選択とは 特徴量選択

    ランダムフォレストと検定を用いた特徴量選択手法 Boruta - 学習する天然ニューラルネット
  • 1