「特徴量エンジニアリング」とは、大雑把に言えば「機械学習モデルの予測精度を上げるための入力データの加工」のことですが、実はこの言葉の定義には曖昧さがあります。様々な記事を読むと、この言葉は使う人により若干意味が異なっていることが分かります。 例えば、ある記事では、欠損値の補完は「前処理」で、カテゴリカルデータのワンホットエンコーディングが「特徴量エンジニアリング」と解説されています。一方、別の記事では両者とも「特徴量エンジニアリング」と解説されています。したがって、この言葉でイメージするものは人によって異なっていると言えます。 データサイエンティストの中でも自然言語処理をメインに扱う人にとっては、ストップワード1の除去や用語の出現頻度の算出などをイメージするかもしれません。 そこで、この記事では2023年12月26日発売の以下の書籍の内容をもとにできるだけ簡単に、特徴量エンジニアリングを説