タグ

ブックマーク / aotamasaki.hatenablog.com (5)

  • 【Streamlitよりいいかも?】機械学習系のデモアプリ作成に最適!Gradio解説 - 学習する天然ニューラルネット

    はじめに Streamlit vs Gradio Gradioの設計思想 Interface 入出力に応じたUI Interface String Shortcut 入力データのサンプルのセット ドキュメンテーション テーマの変更 タイムアウトへの対処 中級者への第一歩、デモを作る際に知っておきたい処理 Gradioが担当する前処理について プログレスバー もろもろの出力結果を保存するには? 認証認可(というか認可) その他、解説しないが需要の有りそうなもの まとめ 追記 : 動画になりました。 はじめに 機械学習系のデモアプリを作成することがしばしばありStreamlitを使用していたが、パラメーターなどをいじるたびに処理が最初から走るなどといった挙動に悩まされていた。 同僚がGradioというのを使っていたのでサーベイがてらメモしていたらブログが出来上がってしまった。 ブログでは、G

    【Streamlitよりいいかも?】機械学習系のデモアプリ作成に最適!Gradio解説 - 学習する天然ニューラルネット
  • インバランスデータにおけるPR曲線とROC曲線の振る舞いの違い - 学習する天然ニューラルネット

    注意 PR曲線について PR曲線とは どんなときにPR曲線を使うのか 前提知識 ROC曲線 Confusion Matrix PrecisionとRecall PR曲線の書き方 インバランスデータにおけるPR曲線とROC曲線の違い 面積の比較 ちょっと悪い場合 もっと悪い場合 軌跡の比較(アニメーション) まとめ 参考 注意 記事は自分の知識が浅いうちに書いた記事なので、ツッコミどころが多い。 記事を読むにあたっては、以下のことに注目して読んでいただきたい。 ROC曲線も悪くはない。むしろ自分はこちらばかり使っている。 PR曲線との振る舞いの違いを確かめた記事として読んでほしい。 少数クラスに注目する上ではPR曲線のほうが数値としての変動が大きい。それがわかりやすいという文脈でPR曲線のほうが"適している"と文で書きがちであるが、面積最大化という意味ではROC曲線と等価(?ほぼ等価な

    インバランスデータにおけるPR曲線とROC曲線の振る舞いの違い - 学習する天然ニューラルネット
    tlo_oly
    tlo_oly 2021/02/03
  • 特徴量重要度にバイアスが生じる状況ご存知ですか? - 学習する天然ニューラルネット

    なぜこの記事を書いたのか? 決定木をベースにしたアルゴリズムのほとんどに特徴量重要度という指標が存在する。データに対する知識が少ない場合はこの指標を見て特徴量に対する洞察深めることができる。KaggleではEDAのときにとりあえず重要度を見てみるなんてこともするようだ。 しかし、この特徴量重要度にはバイアスが存在していて、特定の条件下では信用出来ないことがある。そういった条件を広く知ってほしいということでこの記事を書いた。 この記事では人工データを生成しバイアスを再現してみた。また、こういったバイアスに対処したという論文を見つけたので軽く紹介する。おまけとしてgainベース以外の特徴量重要度についても紹介する。 目次 なぜこの記事を書いたのか? 想定読者と実験の枠組み 想定読者 限定する枠組み 特徴量重要度とは? 特徴量重要度にバイアスが生じる条件 1. 解像度が低い場合 2. 特徴量同士

    特徴量重要度にバイアスが生じる状況ご存知ですか? - 学習する天然ニューラルネット
    tlo_oly
    tlo_oly 2019/07/16
  • 変数選択(Feature Selection)の実装と改善の確認 - 学習する天然ニューラルネット

    はじめに 実験設定 目的 用いるデータ 用いる変数選択手法 用いる判別器 評価指標 行わないこと データを少し見てみる すべての特徴を用いた場合 Filter Method 目視により選択 sklearn.feature_selection.SelectKBestによる選択 Wrapper Method sklearn.feature_selection.RFECVによる選択 Borutaによる変数選択 実験結果 まとめ クリックでコードを表示 ##import import pandas as pd import numpy as np from IPython.core.display import display from tqdm import tqdm_notebook as tqdm from copy import deepcopy as cp ##Visualization

    変数選択(Feature Selection)の実装と改善の確認 - 学習する天然ニューラルネット
    tlo_oly
    tlo_oly 2019/04/09
    Filter Methodの実装
  • ランダムフォレストと検定を用いた特徴量選択手法 Boruta - 学習する天然ニューラルネット

    特徴量選択とは Borutaとは とりあえず使ってみる ベースラインの判別 Borutaの判別 Borutaのアイデアの概要 Borutaのアルゴリズム 1. 判別に寄与しないはずの偽の特徴量を作る。 2. 偽の特徴量と一緒にランダムフォレストを訓練。 3. 各特徴量の重要度と偽の特徴量の特徴量を比較。 4. 複数回比較し検定を行うことで、当に重要な特徴量のみを選択。 検定について 1. 棄却したい帰無仮説と受容したい対立仮説を用意する。 2. 観測値から検定統計量Tを定める。 3. 帰無仮説が正しいとしてTの分布を求める。 4. 十分小さい有意水準αを定め、帰無仮説が正しいときにとなる領域を棄却域とする。 5. 観測されたTがに入っていたら対立仮説を受容し、入っていなければ帰無仮説を受容する。 まとめ 補足 使う際のTips等 2019/01/06追記 参考 特徴量選択とは 特徴量選択

    ランダムフォレストと検定を用いた特徴量選択手法 Boruta - 学習する天然ニューラルネット
    tlo_oly
    tlo_oly 2019/04/08
  • 1