タグ

ブックマーク / aotamasaki.hatenablog.com (8)

  • githubやnoteでもTeXの数式を書くぜ - 学習する天然ニューラルネット

    この記事は何? 使い方 作成のモチベーション 関連するツール まとめ この記事は何? これを作った↓ https://tex-image-link-generator.herokuapp.com/ これを使えば、githubのreadmeやissuesに数式を埋め込むことができる。 例えばこんなふうに。 notehatenablogなどのmarkdown(HTML)が使えるサービスに転用することもできるはず。 使い方 言うまでもないですが、上部のtext areaに数式を打ち込んでctrl enter (or ⌘ enter)を押すだけ。 sizeはpreviewのサイズではなく 実際に表示されるサイズになってる(previewには反映される)。 resultの右側にcopy to clipboardボタンがあるのでそれをポチッとするのが早いでしょう。 得られたリンクをここに貼ってみる。

    githubやnoteでもTeXの数式を書くぜ - 学習する天然ニューラルネット
    knok
    knok 2020/08/09
  • Confident Learningは誤った教師から学習するか? ~ tf-idfのデータセットでノイズ生成から評価まで ~ - 学習する天然ニューラルネット

    概要 現実の判別問題において教師が完璧であることは珍しい。ラベリング作業において、知識不足や勘違いなどで引き起こされるヒューマンエラーはデータセットを汚染する。 このような間違った教師のことを、noisy label (corrupted label や polluted labelとも)という。誤った教師を用いると学習はうまく行かず判別性能は下がってしまう。近年ではこれに対処しようという研究が増えている。 ICML2020に Confident Learning: Estimating Uncertainty in Dataset Labels という論文が投稿された。しかも、よく整備された実装cleanlabまで提供されていた。 今回はRCV1-v2という文章をtf-idf(特徴量)にしたデータセットを用いて、Confident Learning (CL)が効果を発揮するのか実験を行っ

    Confident Learningは誤った教師から学習するか? ~ tf-idfのデータセットでノイズ生成から評価まで ~ - 学習する天然ニューラルネット
    knok
    knok 2020/04/05
  • Confident Learning -そのラベルは正しいか?- - 学習する天然ニューラルネット

    これは何? ICML2020に投稿された Confident Learning: Estimating Uncertainty in Dataset Labels という論文が非常に面白かったので、その論文まとめを公開する。 論文 [1911.00068] Confident Learning: Estimating Uncertainty in Dataset Labels 超概要 データセットにラベルが間違ったものがある(noisy label)。そういうサンプルを検出したい Confident Learningという方法を提案。現実的な状況下でSOTAを達成 PyPIに実装を公開済みですぐに使用可能(pip install cleanlab) GitHub - cgnorthcutt/cleanlab: Find label errors in datasets, weak supe

    Confident Learning -そのラベルは正しいか?- - 学習する天然ニューラルネット
    knok
    knok 2020/03/27
  • インバランスデータにおけるPR曲線とROC曲線の振る舞いの違い - 学習する天然ニューラルネット

    注意 PR曲線について PR曲線とは どんなときにPR曲線を使うのか 前提知識 ROC曲線 Confusion Matrix PrecisionとRecall PR曲線の書き方 インバランスデータにおけるPR曲線とROC曲線の違い 面積の比較 ちょっと悪い場合 もっと悪い場合 軌跡の比較(アニメーション) まとめ 参考 注意 記事は自分の知識が浅いうちに書いた記事なので、ツッコミどころが多い。 記事を読むにあたっては、以下のことに注目して読んでいただきたい。 ROC曲線も悪くはない。むしろ自分はこちらばかり使っている。 PR曲線との振る舞いの違いを確かめた記事として読んでほしい。 少数クラスに注目する上ではPR曲線のほうが数値としての変動が大きい。それがわかりやすいという文脈でPR曲線のほうが"適している"と文で書きがちであるが、面積最大化という意味ではROC曲線と等価(?ほぼ等価な

    インバランスデータにおけるPR曲線とROC曲線の振る舞いの違い - 学習する天然ニューラルネット
    knok
    knok 2019/08/06
  • 特徴量重要度にバイアスが生じる状況ご存知ですか? - 学習する天然ニューラルネット

    なぜこの記事を書いたのか? 決定木をベースにしたアルゴリズムのほとんどに特徴量重要度という指標が存在する。データに対する知識が少ない場合はこの指標を見て特徴量に対する洞察深めることができる。KaggleではEDAのときにとりあえず重要度を見てみるなんてこともするようだ。 しかし、この特徴量重要度にはバイアスが存在していて、特定の条件下では信用出来ないことがある。そういった条件を広く知ってほしいということでこの記事を書いた。 この記事では人工データを生成しバイアスを再現してみた。また、こういったバイアスに対処したという論文を見つけたので軽く紹介する。おまけとしてgainベース以外の特徴量重要度についても紹介する。 目次 なぜこの記事を書いたのか? 想定読者と実験の枠組み 想定読者 限定する枠組み 特徴量重要度とは? 特徴量重要度にバイアスが生じる条件 1. 解像度が低い場合 2. 特徴量同士

    特徴量重要度にバイアスが生じる状況ご存知ですか? - 学習する天然ニューラルネット
    knok
    knok 2019/07/16
  • 特徴量選択の今とこれから - 学習する天然ニューラルネット

    特徴量選択とは 特徴量選択の難しさ 特徴量選択の手法の大別 教師ありの特徴量選択 filter method 単変量とクラスラベルの関連性を上げる 関係性を上げて冗長性を下げる 関係性を上げて多様性を上げる wrapper method Forward SelectionとBackward Elimination 遺伝的アルゴリズムと粒子群最適化 その他のwrapper method embedding method L1正則化 Regularized tree 特徴量選択のこれから 超高次元データと特徴量選択のアンサンブル 不均衡データにおける特徴量 オンライン特徴量選択 深層学習を用いた特徴量選択 最後に 特徴量選択とは 特徴量選択(Feature Selection, 変数選択とも)はデータサイエンスにおいて非常に重要である。 例えば、製造業において欠陥品を判別するタスクを考えてみよ

    特徴量選択の今とこれから - 学習する天然ニューラルネット
    knok
    knok 2019/02/11
  • pickleより楽にpythonオブジェクトを保存する方法 - 学習する天然ニューラルネット

    この記事で言いたいこと import pickleしてwith openをいちいち書くのめんどくさくない?。pandas.to_pickleやpandas.read_pickleを使えば楽。DataFrame以外のものも保存できる。 この記事で言いたいこと はじめに データの用意 pickleをimportしてwith openで書き込んだり読み込んだりするやり方 pandasを使ったやりかた まとめ はじめに pythonは辞書やリスト、もしくはクラスから生成したインスタンス等を保存する機能を提供している。 pickle --- Python オブジェクトの直列化 — Python 3.7.3rc1 ドキュメント 現在(2018/11/23)、googleで検索するとたくさんの記事が出てくる。しかしどれもpickleのドキュメントに準拠したものになっていて、pickleをimportし、

    pickleより楽にpythonオブジェクトを保存する方法 - 学習する天然ニューラルネット
    knok
    knok 2019/01/08
    知らなかった。でもimportにかかる時間/IOが惜しいケースもあるから常にこれでいいやとも言えないな
  • ランダムフォレストと検定を用いた特徴量選択手法 Boruta - 学習する天然ニューラルネット

    特徴量選択とは Borutaとは とりあえず使ってみる ベースラインの判別 Borutaの判別 Borutaのアイデアの概要 Borutaのアルゴリズム 1. 判別に寄与しないはずの偽の特徴量を作る。 2. 偽の特徴量と一緒にランダムフォレストを訓練。 3. 各特徴量の重要度と偽の特徴量の特徴量を比較。 4. 複数回比較し検定を行うことで、当に重要な特徴量のみを選択。 検定について 1. 棄却したい帰無仮説と受容したい対立仮説を用意する。 2. 観測値から検定統計量Tを定める。 3. 帰無仮説が正しいとしてTの分布を求める。 4. 十分小さい有意水準αを定め、帰無仮説が正しいときにとなる領域を棄却域とする。 5. 観測されたTがに入っていたら対立仮説を受容し、入っていなければ帰無仮説を受容する。 まとめ 補足 使う際のTips等 2019/01/06追記 参考 特徴量選択とは 特徴量選択

    ランダムフォレストと検定を用いた特徴量選択手法 Boruta - 学習する天然ニューラルネット
    knok
    knok 2019/01/06
  • 1