Hadoop common user MLを見ていたところ,Data for Testing in HadoopでHadoopで使えるデータセットってない? という質問がありました.その返信でいくつか紹介されているものがあったので,列記しておきます. 実データ Amazon Web Services Amazonが,Public Data Sets : Amazon Web Servicesとして,公開しています. Wikipedia Traffic Statisticsなんかもあったりして,面白いかもしれない. Mahout Mahoutが,Collections - Apache Mahout -として,公開しています. 外部サイトへのリンクなども雑多に並べてある感じ. データジェネレータ DataGeneratorHadoop Pig Wikiに記載されている,Make DataGe