エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
機械学習で入ってはいけないデータが混入する「リーケージ」とその対策
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
機械学習で入ってはいけないデータが混入する「リーケージ」とその対策
バリデーションスキームによりモデルの精度を検証する 予測モデルは、必ずバリデーション(Validation)... バリデーションスキームによりモデルの精度を検証する 予測モデルは、必ずバリデーション(Validation)により精度を検証します。pythonのライブラリscikit-learnにはStratifiedKFold(層状K分割)などの仕組みが用意されており、データを分割して学習と検証に使うことができます。 バリデーションのパターンの一つが交差検定です(図1)。例えば、データを5分割して4分割分でモデルを生成し、残りの1分割でバリデーションを行います。バリデーションに使うデータをずらしていくことで、モデルの精度を検証できます。 しかし、このバリデーションスキームを安易に製造業に適用してしまうと、問題が発生する場合があります。その原因は、製造ロット特性と意図的なデータ収集です。詳しく見ていきましょう。 1つ目は、製造ロットによる品質の偏りです。例えば、同一ロット内では原料ロットや装置の日間差が