タグ

ブックマーク / zenn.dev/atfujita (2)

  • Deep Learningを使った欠損値補完 DataWig

    欠損のままでも動くフレームワークも最近は増えていますが 欠損値の扱いは機械学習適用において難しい課題の一つです。 簡便的に平均値, 中央値, 最頻値などの統計量を代入する、Scikit-learnのAPIなどを使って、機械学習アルゴリズムで欠損を埋める, MICEで代入するなどの方法がありますが、この記事ではDeep Learningベースの欠損値補完ライブラリであるDataWigについて触れてみたいと思います。 欠損のタイプ[1] データの欠損には大きく3つのメカニズムがあるとされています。 MCAR(Missing Completely At Random ) : 完全にランダムな欠損で、ある値の欠損する確率が、その対象のデータと無関係(例:サイコロを振ってランダムに欠損させているような状況)であることを指します。データ数が十分確保できるのであれば欠損行を削除しても問題ないタイプです。

    Deep Learningを使った欠損値補完 DataWig
    sh19910711
    sh19910711 2024/04/29
    "DataWig: Amazonが開発 + 欠損値補完ライブラリ + Apache MXNetをベース / 数値だけでなく、カテゴリの欠損補完にも対応 / 代入したいカラム内の属性もしくはカラム全ての潜在的な値の尤度を得る" 2021
  • xfeatとAutoGluonでベンチマークモデル作成

    この記事ではxfeatとAutoGluonを使って、機械学習モデルの評価で役に立つベンチマークモデルを作ってみようと思います。 はじめに みなさんは機械学習モデルのベンチマーク作成に悩んだことはないですか? 個人的な経験では、新規プロジェクトのデータサイエンティストが自分一人の時に悩む時がありました(モデルの精度はデータに依存する部分が大きいですが、新しいデータ、タスクで比較対象がないなか、いかに自身のモデルの有用性を伝えるかなどの面で)。 過去には... 素のデータセットでモデルを学習した結果で比較する 実験過程の記録を使用する 複数アルゴリズムを試した時の結果を利用する(後付けでA, B, C...のアルゴリズムを試してAが一番良かった) HPOした時の結果を利用する(後付けでA, B, C...のハイパーパラメータを探索してAが一番良かった) こういったアプローチをとったことがありま

    xfeatとAutoGluonでベンチマークモデル作成
    sh19910711
    sh19910711 2024/04/18
    "モデルの精度はデータに依存する部分が大きい / 新しいデータ、タスクで比較対象がないなか、いかに自身のモデルの有用性を伝えるか / xfeat: 特徴量エンジニアリングと探索のためのライブラリ" 2021
  • 1