こんにちは、データサイエンティストの堀部です。 この記事はEnigmo Advent Calendar 2022の16日目の記事です。 普段の業務では情報検索(検索/レコメンド)、不正検知、ユーザー属性の推定などをBUYMAにプロダクトとして組み込むことを行っています。その中でもモデリング以前のタスク設計や探索的データ分析(EDA: Explanatory Data Analysis)、データのクレンジング・前処理、特徴量エンジニアリングなどを主にSQL(BigQuery)で行う部分に多くの時間を割いています。1 今回は、違和感のある予測結果から気づいた傾向を元にデータの前処理を追加したことでモデルの精度改善につながった一例を紹介いたします。 概要 気づいた経緯 検出方法 結果 まとめ おまけ 概要 データから機械的な(ボットのような)アクセスを除外したことで、機械学習モデルの精度が改善し