タグ

ブックマーク / tagomoris.hatenablog.com (25)

  • DeNA x livedoor 合同勉強会でしゃべった - たごもりすメモ

    なんか新宿を離れる前にやっとこうぜ! という話があったらしくて昨年末に企画が立った*1合同勉強会に参加してた。 聞いた内容と懇親会の内容については社内イベント的なものなので詳細は省くとしてスゲー楽しかった。またやりたいですね! しゃべってきた で、そこでしゃべるがよいと水を向けられたので、ここのところやってきたことについて話してきた。 LDeNA 峠とログ収集・集計の話 View more presentations from tagomoris いま絶賛稼動中(でいろいろ問題あって調整中)のfluentdクラスタの話、というよりは、そこに至るまでの試行錯誤について。こういう話はもう外でする機会もあんまりなさそうだったので簡単にまとめた。峠の話は社内システム(自分が作ったものには峠の名前がついている)の由来についての前振り! Fluentdクラスタの話は今週末のFluentd meetup

    DeNA x livedoor 合同勉強会でしゃべった - たごもりすメモ
  • Hoop(httpfs)とwebhdfsの違い - たごもりすメモ

    Hadoop 1.0.0がリリースされた。まあ中身のほとんどはただの 0.20.x 安定板リリースなので特別に言うことはないんだけど。詳しくは以下のblogを読むのがよろしい。 hadoopのバージョン表記について - 科学と非科学の迷宮 ただしひとつだけびっくりしたのは、webhdfsなる機能が入ってきたこと。(このblogでよく話題にしている)Hoopと並んでそんなようなものがあること自体は知ってたけどあんまり興味なかったのだが、Apache Hadoopのパッケージに(Hoopより先に)入ったとなるとちょっと注目せざるをえない。 が、httpfs(Hoop)とwebhdfsじゃ名前も似てて超まぎらわしい。いったい何がなんなの。 なお自分はWebHDFSはAPIリファレンスを読んだだけで、実際にはカケラも触っていない。その状況での理解による内容なので、注意して読んでください。 先に結論

    Hoop(httpfs)とwebhdfsの違い - たごもりすメモ
  • Hoopの性能を確認してみたらもうlibhdfsとかオワコンでHoop使えって結果になった - たごもりすメモ

    前に書いた エントリ の通りHoopが有望な感じだったんだけどどのくらいの性能が出るのか見てみないことには番投入して性能出ませんでした乙、ということになりかねない。ので見てみた。 なお検証に関係する環境としては以下の通り。ちなみに前はCDH3u1で試してたけど、今回はCDH3u2 (JDK6u29) on CentOS5。メモリが問題になることは全くないので全て省略。 ベンチ用サーバ Intel Xeon 4Core HT 2.4GHz データ中継サーバ (deliver) Intel Xeon 4Core HT 2.4GHz Hadoop NameNode (+JobTracker) (namenode) Intel Xeon 1Core HT 3.16GHz Hadoop DataNode + TaskTracker x9 Intel Xeon 1Core HT 3.16GHz Ho

    Hoopの性能を確認してみたらもうlibhdfsとかオワコンでHoop使えって結果になった - たごもりすメモ
  • Hoop (HDFS over HTTP) を試してみた - たごもりすメモ

    バッチ処理にかける対象ファイルの抽出には中身を見る必要があって、headやtailでいいんだけどhadoop fsコマンドではそういうオペレーションができない*1ので FUSE hdfs でLinuxにHDFSをmountしてやっている。 が、これがまたビルドするのにひと苦労だったりmount元と先が密結合になっちゃったり遅かったりいつまでメンテされるもんかと思われたりするし外部コマンドを起動して結果を読んでゴニョゴニョしたりするのが面倒なのでどうにかしたいなーと思っていたら、Clouderaから Hoop なるプロダクトが少し前にリリースされた。 Hoop - Hoop, Hadoop HDFS over HTTP - Documentation Sets 0.1.0-SNAPSHOT HTTP REST APIを経由してHDFSの内容にアクセスできるし、オペレーションもできる。GETの

    Hoop (HDFS over HTTP) を試してみた - たごもりすメモ
  • xargs を使ってカジュアルに並列処理 - たごもりすメモ

    シェルからでも重い処理というのはちょこちょこあって、例えば超デカいログファイルを移動して圧縮したりというお仕事は世界中のあらゆる場所で毎日行われていたりする。コマンドラインからでも大量の圧縮済みログファイルをいっぺんに展開したい、とか。 あるディレクトリ以下に存在するたくさんのファイルを(圧縮済みのものを除いて)全部 bzip2 圧縮したい!と思ったら、とりあえずさくっと次のようにコマンドラインで叩けばいい。 $ find . -not -name '*.bz2' | xargs bzip2 これで、まあそんなに問題なく効率的にbzip2圧縮ができる。だがしかし。 最近は複数コアのCPUが普通に転がってるし、あまつさえHyperThreadingが有効になってたりしてOSから見える論理CPU数がハンパない。普通に8とかある。その一方で複数コアを使用してくれるコマンドというのはあんまりなくて

    xargs を使ってカジュアルに並列処理 - たごもりすメモ