タグ

2010年5月27日のブックマーク (3件)

  • BigQueryってなんぞ? - スティルハウスの書庫の書庫

    Google I/O 2010では、Google Storageと合わせて利用する新機能「BigQuery」が発表されました(これもApp Engineとは個別のプロダクトです)。ひとことで言えば「何100億件のデータも数秒〜数10秒で集計できる、大規模並列クエリサービス」です。既存のOLAPやデータウェアハウスに相当するもので、更新処理には使えません。 MapReduceとはどう違う? 大規模なデータセットに対して多数のサーバで並列処理するという点ではMapReduceに似ていますが、処理結果がすぐに得られる点、そしてSQLっぽいクエリ言語で表現できる集計処理しか実行できない(mapperやreducerを定義してデータを任意の方法で加工したりできない)点がMRとは異なります。MRよりさらに高水準の分散処理サービスです(MR+Hiveに近いかもしれません)。 リンク集 BigQuery

    BigQueryってなんぞ? - スティルハウスの書庫の書庫
  • Hadoop Streaming で外部ファイルを扱う方法のまとめ - (゚∀゚)o彡 sasata299's blog

    2010年05月06日09:21 Hadoop Hadoop Streaming で外部ファイルを扱う方法のまとめ Hadoop Streaming での外部ファイルの扱いもだいぶ固まってきました。発表資料のスライドではこの辺の話を書いたことがあるんですが、ブログには書いてなかったので一度きっちりまとめておこうかなーっと。というわけで今回は Hadoop Streaming での外部ファイルの読み込みについてまとめますよ!(*゚Д゚)=3 ムハー そもそも外部ファイルの読み込みと言っても、この二つのパターンがあります。 1) 外部ファイルが master 上にある(つまりローカルディスクにある)場合 2) 外部ファイルが別ファイルシステム(S3 だったり HDFS だったり)にある場合 外部ファイルが master 上にある場合 まず、この場合はとても簡単です。例えば hoge.txt と

  • 自分のマシン上でpython走らせたときのパフォーマンス - 科学と非科学の迷宮

    kinabaさんのアルゴリズムコンテストの挑み方を真面目に読み直していると、こんな一文が。 自分の持っている計算機が、どのくらいのスピードで「計算」できるか、ご存じでしょうか? 感覚的には億のオーダー、つまり 10^8 超えたらGCJ Largeでは黄色信号かなあ(制限時間8分のため)、というぐらいには理解しているのですが、確かに正確な性能はわかりません。 というわけで測ってみることにしました。 測定環境 マシン HW Thinkpad X61 CPU Intel Core2 Duo T7500 2.20GHz Disk SSD 80GB Memory 2GB ソフトウェア OS Fedora 12 kernel 2.6.32-12-115.fc12.i686.PAE python 2.6.2 使用言語 python 測定結果 大体表の通り。 時間はほぼ全てリニアに伸びてます。 ループ回数

    自分のマシン上でpython走らせたときのパフォーマンス - 科学と非科学の迷宮