www.amazon.co.jp 訳者よりご恵贈いただきました.8年前に kaggle のアカウントを作ったきりの人間であるため,この文章にさほど価値があるとは思えませんが感想を書きたいと思います. ロジスティック回帰や決定木,ランダムフォレストやニューラルネットワークなどの機械学習アルゴリズムにどのようにデータを入力するか,ただのデータをよりアルゴリズムのパフォーマンスが改善するように加工する作業を「特徴量エンジニアリング」と呼びます. 本書はその特徴量エンジニアリングの基礎である 変数の値をそのまま使うのか,二値化するのか,区分に分けて離散化するのか,対数を取るのか,値を一定の区間に揃えるのか テキストをどのように特徴量にするのか,どう処理すべきか,どう重み付けるのか カテゴリ変数をどのように扱うのか,カテゴリの数が増えた時にどう対処するか 変数の数が多い時にどう減らせば良いのか k-