タグ

2015年1月13日のブックマーク (1件)

  • 決定木 – 分類木 | トライフィールズ

    決定木とは、分類ルールを木構造で表したものである。分類したいデータを目的変数(従属変数)、分類するために用いるデータを説明変数(独立変数)という。目的変数がカテゴリデータなどの場合は「分類木」、連続値などの量的データの場合は「回帰木」と呼ばれる。 決定木の最大のメリットは、結果にグラフを用いることができるため、視覚的に確認できることである。 ここでは、R言語の「rpart」パッケージを用いて決定木について見ていこう。サンプルデータとして、Rに標準で含まれている「Titanic」を使わせていただいた。このサンプルデータはタイタニック号の乗客の属性情報と生死の情報が含まれている。生死を分けた要因を属性情報から分類するとどのようになるのかを見ていく。 まずは必要となるパッケージのインストールとロードを行う。「rpart」パッケージは決定木を行うためのものだが、「rpart.plot」と「part