この記事について Pythonデータ分析試験に合格したので、要点をまとめてみました。 1. データ分析エンジニアの役割 教師あり学習と教師なし学習 教師あり学習は正解となるラベルが存在する学習方式です。 正解ラベルである目的のデータを目的変数と呼びます。 目的変数以外のデータを説明変数と呼びます。 教師あり学習は説明変数を用いて、目的変数を予測する学習方式ということになります。 一方、教師なし学習は正解ラベルを用いない学習方式です。 正解ラベルがないので、目的変数がない学習方式ということです。 分類とクラスタリング 教師あり学習の分類は、事前にいくつのグループに分けるのか、明確に定義します。 例えば、イヌとネコに分類したい場合は2グループに分けることになります。 一方、クラスタリングは教師なし学習に分類され、グループ数がいくつになるのか明確ではありません。 ひょっとしたら、3グループかもし