連載目次 データセット解説 Titanic dataset(タイタニックデータセット。以下、Titanic)は、「1912年に北大西洋で氷山に衝突して沈没したタイタニック号への乗客者の生存状況」の表形式データセット(=構造化データセット)である(図1、複数の研究者が「Encyclopedia Titanica」上から抽出し、Frank E. Harrell, Jr.氏が取りまとめ、Thomas Cason氏が大幅に更新&改善して作成されたデータセットである)。 Titanicは、主に分類(つまり「生存状況の予測」)を目的としたディープラーニング/機械学習/統計学の研究や初心者向けチュートリアルで使われている(※ただし、ディープラーニングを行うにはデータ数が1309件と少なすぎる点に注意が必要だ)。特に、Kaggleの初心者チュートリアル「Titanic: Machine Learning