タグ

datasetに関するmikka_memoのブックマーク (2)

  • アクセスログ解析の実験にはNASAのデータセットが便利 - nokunoの日記

    アクセスログ解析の実験をしています.以前にも見かけた気がするのですが,ACMのSIGCOMMというコミュニティのサイトでWebのアクセスログやトラフィックのログが公開されています. Traces In The Internet Traffic Archive この中でデータサイズが大きいのはWorldCup98やUBCのログなのですが,フォーマットがバイナリだったりURLが匿名化されていて何がなんだか分からなかったりで微妙に実データと違っていて使いづらかったりしました.1998 World Cup Web Site Access LogsUC Berkeley Home IP Web Traces - 18 daysそんなわけで,生のApacheログ形式で比較的サイズの大きい実験データとしては,NASAのデータセットが便利そうです. NASA-HTTP - Two Months of HT

    mikka_memo
    mikka_memo 2011/08/04
    / アクセスログ解析の実験にはNASAのデータセットが便利 –
  • Hadoopのためのデータセットあれこれ - kj-ki’s blog

    Hadoop common user MLを見ていたところ,Data for Testing in HadoopでHadoopで使えるデータセットってない? という質問がありました.その返信でいくつか紹介されているものがあったので,列記しておきます. 実データ Amazon Web Services Amazonが,Public Data Sets : Amazon Web Servicesとして,公開しています. Wikipedia Traffic Statisticsなんかもあったりして,面白いかもしれない. Mahout Mahoutが,Collections - Apache Mahout -として,公開しています. 外部サイトへのリンクなども雑多に並べてある感じ. データジェネレータ DataGeneratorHadoop Pig Wikiに記載されている,Make DataGe

    Hadoopのためのデータセットあれこれ - kj-ki’s blog
    mikka_memo
    mikka_memo 2011/04/04
    / Hadoopのためのデータセットあれこれ - kj-kiのはてなダイアリー –
  • 1