sh19910711のブックマーク - はてなブックマーク

sh19910711 id:sh19910711

ブックマーク / zenn.dev/atfujita (2)

Deep Learningを使った欠損値補完 DataWig
欠損のままでも動くフレームワークも最近は増えていますが欠損値の扱いは機械学習適用において難しい課題の一つです。簡便的に平均値, 中央値, 最頻値などの統計量を代入する、Scikit-learnのAPIなどを使って、機械学習アルゴリズムで欠損を埋める, MICEで代入するなどの方法がありますが、この記事ではDeep Learningベースの欠損値補完ライブラリであるDataWigについて触れてみたいと思います。欠損のタイプ[1] データの欠損には大きく3つのメカニズムがあるとされています。 MCAR(Missing Completely At Random ） : 完全にランダムな欠損で、ある値の欠損する確率が、その対象のデータと無関係（例：サイコロを振ってランダムに欠損させているような状況）であることを指します。データ数が十分確保できるのであれば欠損行を削除しても問題ないタイプです。
sh19910711 2024/04/29
"DataWig: Amazonが開発 + 欠損値補完ライブラリ + Apache MXNetをベース / 数値だけでなく、カテゴリの欠損補完にも対応 / 代入したいカラム内の属性もしくはカラム全ての潜在的な値の尤度を得る" 2021

*algorithm

機械学習

系列
リンク
xfeatとAutoGluonでベンチマークモデル作成
この記事ではxfeatとAutoGluonを使って、機械学習モデルの評価で役に立つベンチマークモデルを作ってみようと思います。はじめにみなさんは機械学習モデルのベンチマーク作成に悩んだことはないですか？個人的な経験では、新規プロジェクトのデータサイエンティストが自分一人の時に悩む時がありました（モデルの精度はデータに依存する部分が大きいですが、新しいデータ、タスクで比較対象がないなか、いかに自身のモデルの有用性を伝えるかなどの面で）。過去には... 素のデータセットでモデルを学習した結果で比較する実験過程の記録を使用する複数アルゴリズムを試した時の結果を利用する（後付けでA, B, C...のアルゴリズムを試してAが一番良かった） HPOした時の結果を利用する（後付けでA, B, C...のハイパーパラメータを探索してAが一番良かった）こういったアプローチをとったことがありま
sh19910711 2024/04/18
"モデルの精度はデータに依存する部分が大きい / 新しいデータ、タスクで比較対象がないなか、いかに自身のモデルの有用性を伝えるか / xfeat: 特徴量エンジニアリングと探索のためのライブラリ" 2021

*algorithm

機械学習

python
リンク
1