タグ

hadoopとHoopに関するshiumachiのブックマーク (7)

  • WebHDFSとHttpFsについての簡単なベンチマーク - たごもりすメモ

    前のエントリの続き。実用上どうなのってことで、とりあえず簡単にベンチマーク的な負荷走行をしてみた。 実行環境は以下の通り。なお HttpFs Server はNameNode上に立ててある。 CDH4b2 + HttpFs/WebHDFS NameNode x1 2CPU 8GB Memory DataNode x4 2CPU 8GB Memory 2TB HDD ベンチマークスクリプト実行ノードもNameNodeと同スペック またベンチマークに使用したコードはこちらのRubyスクリプトで、ruby 1.9.3 で動かした。簡単に処理内容をまとめると以下のような感じ。 特定の1ファイルに対してappendを繰り返す appendのサイズは1回あたり10MB 時間あたりでappendに成功した回数を記録 上記処理を行うプロセスを1〜3並列で1時間走行 HttpFs、WebHDFS についてそ

    WebHDFSとHttpFsについての簡単なベンチマーク - たごもりすメモ
  • CDH4b2におけるWebHDFSとHttpFsについて - たごもりすメモ

    CDH4b2でWebHDFSとHttpFsについていろいろ試しているので、分かっている内容をまとめてみる。なお注意点だが、各々以下のような状況であることに注意。 WebHDFS たぶんHadoop 1.0ベース HttpFs たぶんHadoop 0.23ベース(あるいは 2.0 alpha ベース) でHoopとは別物 HttpFsはコードとしてはClouderaオリジナルのHoopのものがベースになっているんだろうし、アーキテクチャ自体も同じ(詳しくは以前のエントリを参照のこと)だけど、細かいところがあちこち異なっているので注意が必要。 またCDH4ベースなのでCDH3ベースのものとは特に性能特性が異なる可能性が高い、が、性能特性についてはまた別に。 HTTP API WebHDFSのAPIは年初に確認したときから変わっていない。 HttpFsのHTTP APIはHoopとしてCloud

    CDH4b2におけるWebHDFSとHttpFsについて - たごもりすメモ
  • Hoop(httpfs)とwebhdfsの違い - たごもりすメモ

    Hadoop 1.0.0がリリースされた。まあ中身のほとんどはただの 0.20.x 安定板リリースなので特別に言うことはないんだけど。詳しくは以下のblogを読むのがよろしい。 hadoopのバージョン表記について - 科学と非科学の迷宮 ただしひとつだけびっくりしたのは、webhdfsなる機能が入ってきたこと。(このblogでよく話題にしている)Hoopと並んでそんなようなものがあること自体は知ってたけどあんまり興味なかったのだが、Apache Hadoopのパッケージに(Hoopより先に)入ったとなるとちょっと注目せざるをえない。 が、httpfs(Hoop)とwebhdfsじゃ名前も似てて超まぎらわしい。いったい何がなんなの。 なお自分はWebHDFSはAPIリファレンスを読んだだけで、実際にはカケラも触っていない。その状況での理解による内容なので、注意して読んでください。 先に結論

    Hoop(httpfs)とwebhdfsの違い - たごもりすメモ
    shiumachi
    shiumachi 2012/01/02
    設計思想の違いがよくわかるなあ。ところでマジで英語でブログ書いてほしいんですが
  • HDFSのファイルオペレーション各種 #hadoopAC11jp - たごもりすメモ

    この記事は hadoopアドベントカレンダー の14日目の記事です。 みなさんHDFS使ってますか。使ってますよね。最近はgluster fsなどの選択肢も出てきていますが、まだ第一の選択肢はHDFSという人がほとんどだと思います。 で、HDFSのファイル操作をどうしようか悩みますよね。めんどくさいです。いくつかあるので比較してみましょう。 hadoop fsコマンド みんな大好きhadoop fs。日に100回くらいは叩きますね。基的にはみんなこれを使うでしょうか。ただし以下いくつかの「たるいなー」という点があります。 Hadoopがインストール・設定されていないと動かない あたりまえなんですけど意外にめんどくさいですね。 Hadoopの処理対象となるファイルはもちろんHadoopクラスタ「以外」のサーバから出てくるわけで、そこからも直接ファイルをHDFSに突っ込みたいなーというのは割

    HDFSのファイルオペレーション各種 #hadoopAC11jp - たごもりすメモ
    shiumachi
    shiumachi 2011/12/14
    "最近 Hoop というツールが出てきました。Clouderaから公開されたものですが、Hadoop本体へのマージが進められたようで、0.23.1(および0.24)のツリーにおいてマージされたようです"
  • Hoopの性能を確認してみたらもうlibhdfsとかオワコンでHoop使えって結果になった - たごもりすメモ

    前に書いた エントリ の通りHoopが有望な感じだったんだけどどのくらいの性能が出るのか見てみないことには番投入して性能出ませんでした乙、ということになりかねない。ので見てみた。 なお検証に関係する環境としては以下の通り。ちなみに前はCDH3u1で試してたけど、今回はCDH3u2 (JDK6u29) on CentOS5。メモリが問題になることは全くないので全て省略。 ベンチ用サーバ Intel Xeon 4Core HT 2.4GHz データ中継サーバ (deliver) Intel Xeon 4Core HT 2.4GHz Hadoop NameNode (+JobTracker) (namenode) Intel Xeon 1Core HT 3.16GHz Hadoop DataNode + TaskTracker x9 Intel Xeon 1Core HT 3.16GHz Ho

    Hoopの性能を確認してみたらもうlibhdfsとかオワコンでHoop使えって結果になった - たごもりすメモ
    shiumachi
    shiumachi 2011/11/02
    素晴らしい
  • Hoop (HDFS over HTTP) を試してみた - たごもりすメモ

    バッチ処理にかける対象ファイルの抽出には中身を見る必要があって、headやtailでいいんだけどhadoop fsコマンドではそういうオペレーションができない*1ので FUSE hdfs でLinuxにHDFSをmountしてやっている。 が、これがまたビルドするのにひと苦労だったりmount元と先が密結合になっちゃったり遅かったりいつまでメンテされるもんかと思われたりするし外部コマンドを起動して結果を読んでゴニョゴニョしたりするのが面倒なのでどうにかしたいなーと思っていたら、Clouderaから Hoop なるプロダクトが少し前にリリースされた。 Hoop - Hoop, Hadoop HDFS over HTTP - Documentation Sets 0.1.0-SNAPSHOT HTTP REST APIを経由してHDFSの内容にアクセスできるし、オペレーションもできる。GETの

    Hoop (HDFS over HTTP) を試してみた - たごもりすメモ
  • Cloudera Blog

    In an era where artificial intelligence (AI) is reshaping enterprises across the globe—be it in healthcare, finance, or manufacturingit’s hard to overstate the transformation that AI has had on businesses, regardless of industry or size. At Cloudera, we recognize the urgent need for bold steps to harness this potential and dramatically accelerate the time to […] Read blog post

    Cloudera Blog
    shiumachi
    shiumachi 2011/07/21
    HDFS Proxyを再設計したClouderaの新しいOSS、Hoopのリリースです!REST API の提供、異なるバージョンの Hadoop 間でのデータ転送、ファイアウォール越しのHDFSアクセスなど、機能は満載です!もちろんソースは公開
  • 1