はじめに この記事は、特徴量エンジニアリングについてわかりやすく説明することを目的として書きました。特徴量エンジニアリングについては、多くの記事で取り上げられていますが、最初に読む入門的な内容を目指しています。 「特徴量エンジニアリング」とは、大雑把に言えば「機械学習モデルの予測精度を上げるための入力データの加工」のことですが、実はこの言葉の定義には曖昧さがあります。様々な記事を読むと、この言葉は使う人により若干意味が異なっていることが分かります。 例えば、ある記事では、欠損値の補完は「前処理」で、カテゴリカルデータのワンホットエンコーディングが「特徴量エンジニアリング」と解説されています。一方、別の記事では両者とも「特徴量エンジニアリング」と解説されています。したがって、この言葉でイメージするものは人によって異なっていると言えます。 データサイエンティストの中でも自然言語処理をメインに扱