前回までのあらすじ 前回の記事ではタイタニック号の乗客で誰が生き残るか予測するために、データを見ていきました。データを解析していく中で、幾つかの仮説を立てました。今回は、その仮説に基づいてデータをもっと弄くり回していきます。 データを視覚化して解析する それでは、仮説を確認するために、データ分析の視覚化を行っていきます。 数値特徴量の相関 数値特徴量とSurvived(統計学的に言うと応答変数)との相関を理解することから始めましょう。 ヒストグラムはAgeのような連続的な数値変数を分析するのに便利で、一定値毎での区切りや範囲が有用であるパターンを特定するのに役立ちます。 ヒストグラムについて説明しておくと、横軸は階級(ある一定の数値で区切ったもの)、縦軸に度数(各階級に属する数値の数)、で表した縦棒グラフです。見ればなんとなく分かって頂けるかと思います。 ヒストグラムは、自動的に定義された