タグ

ブックマーク / sfchaos.hatenablog.com (1)

  • Million Song Dataset - sfchaos's blog

    あけましておめでとうございます.今年もよろしくお願いいたします. Rでbigmemoryやffなどを使用して大規模なデータを扱うときのサンプルデータとして,Data Expo 2009のフライトデータが用いられることが多いようです.しかし,このデータのサイズは約12GBであり,最近のコンピュータではメモリに載ってしまうという指摘もよく受けるようになって来ました. そこで,より大規模なデータセットを探してみました.次のようなデータセットが手軽に利用できます. Million Song Dataset 楽曲の音声やそのメタデータに関するデータセットです.全体で約280GBあります. Page view statistics for Wikimedia projects Wikipediaの各ページのページビューを時間単位で集計したデータです.全体で約2.3TBあります. NCDC Hourly

    Million Song Dataset - sfchaos's blog
  • 1