タグ

ブックマーク / queuery.com (1)

  • データ品質のチェック方針 | Queuery

    機械学習 PoC で使えるデータかどうかを検証したら、プロダクションに向けてデータ収集から設計する方が良い場合も多いです。 データ品質の安定は、意思決定の安定をもたらします。 解釈不能#実世界の何を表しているのか不明なデータ。 寄与率が出ていても意思決定に使えないため、ゴミになることが多いです。 頑張れば使える汚さ#直接取り込める形ではないけれど、人が頑張ってクレンジング、アノテーションが可能なデータ。 お客さんから普通にもらうデータは大抵これです。 目的変数との関係を仮説立てることができるかによって頑張る度合いが変わります。 フリーコメント別な実態が同じ値として扱われる列(同じ S サイズでも、服と、メーカーなど他の列に依存する)同じ実態が別な値として扱われる列("S", "S" が混在する)きれい#直接取り込める形であり、ほとんどクレンジングを必要としないデータ。 法律が絡む伝票など

    udzura
    udzura 2021/03/02
  • 1