techman999のブックマーク - はてなブックマーク

DeNA x livedoor 合同勉強会でしゃべった - たごもりすメモ

なんか新宿を離れる前にやっとこうぜ！という話があったらしくて昨年末に企画が立った*1合同勉強会に参加してた。聞いた内容と懇親会の内容については社内イベント的なものなので詳細は省くとしてスゲー楽しかった。またやりたいですね！しゃべってきたで、そこでしゃべるがよいと水を向けられたので、ここのところやってきたことについて話してきた。 LDeNA 峠とログ収集・集計の話 View more presentations from tagomoris いま絶賛稼動中(でいろいろ問題あって調整中)のfluentdクラスタの話、というよりは、そこに至るまでの試行錯誤について。こういう話はもう外でする機会もあんまりなさそうだったので簡単にまとめた。峠の話は社内システム(自分が作ったものには峠の名前がついている)の由来についての前振り！ Fluentdクラスタの話は今週末のFluentd meetup

techman999 2012/01/30

リンク

Hoop(httpfs)とwebhdfsの違い - たごもりすメモ

Hadoop 1.0.0がリリースされた。まあ中身のほとんどはただの 0.20.x 安定板リリースなので特別に言うことはないんだけど。詳しくは以下のblogを読むのがよろしい。 hadoopのバージョン表記について - 科学と非科学の迷宮ただしひとつだけびっくりしたのは、webhdfsなる機能が入ってきたこと。(このblogでよく話題にしている)Hoopと並んでそんなようなものがあること自体は知ってたけどあんまり興味なかったのだが、Apache Hadoopのパッケージに(Hoopより先に)入ったとなるとちょっと注目せざるをえない。が、httpfs(Hoop)とwebhdfsじゃ名前も似てて超まぎらわしい。いったい何がなんなの。なお自分はWebHDFSはAPIリファレンスを読んだだけで、実際にはカケラも触っていない。その状況での理解による内容なので、注意して読んでください。先に結論

techman999 2012/01/04

リンク

Hoopの性能を確認してみたらもうlibhdfsとかオワコンでHoop使えって結果になった - たごもりすメモ

前に書いたエントリの通りHoopが有望な感じだったんだけどどのくらいの性能が出るのか見てみないことには本番投入して性能出ませんでした乙、ということになりかねない。ので見てみた。なお検証に関係する環境としては以下の通り。ちなみに前はCDH3u1で試してたけど、今回はCDH3u2 (JDK6u29) on CentOS5。メモリが問題になることは全くないので全て省略。ベンチ用サーバ Intel Xeon 4Core HT 2.4GHz データ中継サーバ (deliver) Intel Xeon 4Core HT 2.4GHz Hadoop NameNode (+JobTracker) (namenode) Intel Xeon 1Core HT 3.16GHz Hadoop DataNode + TaskTracker x9 Intel Xeon 1Core HT 3.16GHz Ho

techman999 2011/11/01

リンク

Hoop (HDFS over HTTP) を試してみた - たごもりすメモ

バッチ処理にかける対象ファイルの抽出には中身を見る必要があって、headやtailでいいんだけどhadoop fsコマンドではそういうオペレーションができない*1ので FUSE hdfs でLinuxにHDFSをmountしてやっている。が、これがまたビルドするのにひと苦労だったりmount元と先が密結合になっちゃったり遅かったりいつまでメンテされるもんかと思われたりするし外部コマンドを起動して結果を読んでゴニョゴニョしたりするのが面倒なのでどうにかしたいなーと思っていたら、Clouderaから Hoop なるプロダクトが少し前にリリースされた。 Hoop - Hoop, Hadoop HDFS over HTTP - Documentation Sets 0.1.0-SNAPSHOT HTTP REST APIを経由してHDFSの内容にアクセスできるし、オペレーションもできる。GETの

techman999 2011/11/01

リンク

xargs を使ってカジュアルに並列処理 - たごもりすメモ

シェルからでも重い処理というのはちょこちょこあって、例えば超デカいログファイルを移動して圧縮したりというお仕事は世界中のあらゆる場所で毎日行われていたりする。コマンドラインからでも大量の圧縮済みログファイルをいっぺんに展開したい、とか。あるディレクトリ以下に存在するたくさんのファイルを(圧縮済みのものを除いて)全部 bzip2 圧縮したい！と思ったら、とりあえずさくっと次のようにコマンドラインで叩けばいい。 $ find . -not -name '*.bz2' | xargs bzip2 これで、まあそんなに問題なく効率的にbzip2圧縮ができる。だがしかし。最近は複数コアのCPUが普通に転がってるし、あまつさえHyperThreadingが有効になってたりしてOSから見える論理CPU数がハンパない。普通に8とかある。その一方で複数コアを使用してくれるコマンドというのはあんまりなくて

techman999 2011/05/13

リンク

はてなブックマーク

タグ

ブックマーク / tagomoris.hatenablog.com (25)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス