機械学習の勉強や新しいアルゴリズムのテストをする場合、irisなどのシステム組み込みのサンプルデータを利用するか、UCIリポジトリなどのネット上の公開データから良さげなものを探すというのが一般的だと思います。 しかしながら、irisなどの組み込みデータは一般にデータ数が少なく、分類問題として物足りなかったり、ネット上の公開データを利用するにしても適当なデータ数や特徴量数、問題設定や難度のデータを探すのが難しいですし、前処理が必要なデータも多く手軽に使えるサンプルデータとなると中々見つけられないといったことがあるかと思います。 そういった場合、適当なデータ数や難しさのデータを自分で生成して利用すると、後の計算コスト評価や機械学習アルゴリズムの理解において色々と便利です。 サンプルデータの作り方としては、何らかの統計モデルに基づいて作る方法もありますが、データの質にこだわらないのであればsci