showyouのブックマーク / 2010年5月27日

showyou id:showyou

2010年5月27日のブックマーク (3件)

BigQueryってなんぞ？ - スティルハウスの書庫の書庫
Google I/O 2010では、Google Storageと合わせて利用する新機能「BigQuery」が発表されました（これもApp Engineとは個別のプロダクトです）。ひとことで言えば「何100億件のデータも数秒〜数10秒で集計できる、大規模並列クエリサービス」です。既存のOLAPやデータウェアハウスに相当するもので、更新処理には使えません。 MapReduceとはどう違う？大規模なデータセットに対して多数のサーバで並列処理するという点ではMapReduceに似ていますが、処理結果がすぐに得られる点、そしてSQLっぽいクエリ言語で表現できる集計処理しか実行できない（mapperやreducerを定義してデータを任意の方法で加工したりできない）点がMRとは異なります。MRよりさらに高水準の分散処理サービスです（MR＋Hiveに近いかもしれません）。リンク集 BigQuery
showyou 2010/05/27
programming
リンク
Hadoop Streaming で外部ファイルを扱う方法のまとめ - (ﾟ∀ﾟ)o彡 sasata299's blog
2010年05月06日09:21 Hadoop Hadoop Streaming で外部ファイルを扱う方法のまとめ Hadoop Streaming での外部ファイルの扱いもだいぶ固まってきました。発表資料のスライドではこの辺の話を書いたことがあるんですが、ブログには書いてなかったので一度きっちりまとめておこうかなーっと。というわけで今回は Hadoop Streaming での外部ファイルの読み込みについてまとめますよ！(*ﾟДﾟ)=3 ﾑﾊｰそもそも外部ファイルの読み込みと言っても、この二つのパターンがあります。 1) 外部ファイルが master 上にある（つまりローカルディスクにある）場合 2) 外部ファイルが別ファイルシステム（S3 だったり HDFS だったり）にある場合外部ファイルが master 上にある場合まず、この場合はとても簡単です。例えば hoge.txt と
showyou 2010/05/27
hadoop
リンク
自分のマシン上でpython走らせたときのパフォーマンス - 科学と非科学の迷宮
kinabaさんのアルゴリズムコンテストの挑み方を真面目に読み直していると、こんな一文が。自分の持っている計算機が、どのくらいのスピードで「計算」できるか、ご存じでしょうか？感覚的には億のオーダー、つまり 10^8 超えたらGCJ Largeでは黄色信号かなあ(制限時間8分のため)、というぐらいには理解しているのですが、確かに正確な性能はわかりません。というわけで測ってみることにしました。測定環境マシン HW Thinkpad X61 CPU Intel Core2 Duo T7500 2.20GHz Disk SSD 80GB Memory 2GB ソフトウェア OS Fedora 12 kernel 2.6.32-12-115.fc12.i686.PAE python 2.6.2 使用言語 python 測定結果大体表の通り。時間はほぼ全てリニアに伸びてます。ループ回数
showyou 2010/05/27
programming
リンク
- 2010年5月28日
- 2010年5月27日
- 2010年5月26日