Overlapのブックマーク - はてなブックマーク

Python: 機械学習における不均衡データの問題点と対処法について - CUBE SUGAR CONTAINER

機械学習における分類問題では、扱うデータセットに含まれるラベルに偏りのあるケースがある。これは、例えば異常検知の分野では特に顕著で、異常なデータというのは正常なデータに比べると極端に数が少ない。正常なデータが 99.99% なのに対し異常なデータは 0.01% なんてこともある。このようなデータセットは不均衡データ (Imbalanced data) といって機械学習で扱う上で注意を要する。今回は、不均衡データを扱う上での問題点と、その対処法について見てみる。なお、登場する分類問題の評価指標については、以前このブログで扱ったことがあるのでそちらを参照のこと。 blog.amedama.jp 使った環境は次の通り。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.14.2 BuildVersion: 18C54 $ python

Overlap 2018/12/18

リンク

Python: Optuna で機械学習モデルのハイパーパラメータを選ぶ - CUBE SUGAR CONTAINER

今回は、ハイパーパラメータを最適化するフレームワークの一つである Optuna を使ってみる。このフレームワークは国内企業の Preferred Networks が開発の主体となっていて、ほんの数日前にオープンソースになったばかり。ハイパーパラメータ自動最適化ツール「Optuna」公開 | Preferred Research 先に使ってみた印象について話してしまうと、基本は Hyperopt にかなり近いと感じた。実際のところ、使っているアルゴリズムの基本は変わらないし、定義できるパラメータの種類もほとんど同じになっている。おそらく Hyperopt を使ったことがある人なら、すぐにでも Optuna に切り替えることができると思う。その上で Hyperopt との違いについて感じたのは二点。まず、Define-by-run という特性によって複雑なパラメータを構成しやすく

Overlap 2018/12/14

リンク

Python のバージョン毎の違いとその吸収方法について - CUBE SUGAR CONTAINER

この記事の目指すところ現在 Python はバージョン 2.x 系と 3.x 系という、一部に互換性のないふたつのメジャーバージョンが併用されている。その上で、この記事にはふたつの目的がある。ひとつ目は、2.x 系と 3.x 系の違いについてまとめること。現状、それぞれのバージョン毎の違いはまとまっているところが少ない。自分用に、このページだけ見ればひと通り分かる！っていうものがほしかった。ふたつ目は、2.x 系と 3.x 系の違いを吸収するソースコードの書き方についてまとめること。こちらも Web 上にナレッジがあまりまとまっていない。これについては今 python-future というパッケージがアツい。尚、サポートするバージョンは以下の通り。 2.x 系: 2.6 と 2.7 3.x 系: 3.3 と 3.4 本題に入る前に、最近の Python 事情についてまとめ

Overlap 2015/09/07

リンク

はてなブックマーク

タグ

ブックマーク / blog.amedama.jp (3)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス