Hadoopに関するnnnira-chingのブックマーク (12)

  • HIPI - Hadoop Image Processing Interface :: Introduction

    HIPI is an image processing library designed to be used with the Apache Hadoop MapReduce parallel programming framework. HIPI facilitates efficient and high-throughput image processing with MapReduce style parallel programs typically executed on a cluster. It provides a solution for how to store a large collection of images on the Hadoop Distributed File System (HDFS) and make them available for e

  • EclipseにHadoopの開発環境を作る。 - tetsuya_odakaの日記

    2014/6/13 新しい記事があります。 「EclipseでHadoop2.4の開発環境を作る&ワードカウントのプログラムを作成する。」 - Hadoopを実験するにあたって、プログラムが作れる環境を構築した。 構築には、「30 分で NetBeans を使って Hadoop のプログラムを作ってみる」 を参考にさせていただいた。ただし、慣れているEclipse(Juno)を使うことにした。 開発機はMac Book Pro (OSX Lion)。 まず、Eclipseの家ページより、Eclipse Juno JEEをダウンロードして、抵当な場所に解凍し、wordbenchを開くところまでやる。 次にhadoopの家サイトより、hadoop-1.1.2をダウンロードし、ホームディレクトリに解凍、以下のようなシンボリックリンクを張った。 Javaプロジェクトの作成 javaパースペクテ

  • ZooKeeper の Java での使用例

    ZooKeeper Java API を利用するための手引きとして、ここでは非常に簡単なウォッチクライアントを作成します。作成する ZooKeeper クライアントは、ZooKeeper ノードに変更があったかどうかをウォッチし、プログラムを起動または停止して応答します。 要件 クライアントの要件は次の 4 項目です。 以下の引数を取ります。 ZooKeeper サービスのアドレス ウォッチする znode の名前 プログラムとその引数 znode に関連付けられたデータを取得し、プログラムを起動します。 znode が変更されたら、クライアントはその内容を取得し、プログラムを再起動します。 znode が消滅したら、クライアントはプログラムを kill します。 プログラムの設計 慣習として、ZooKeeper アプリケーションは 2 のユニットに分けます。一方は接続を維持します。もう一

  • 管理が困難―分散処理の常識はZooKeeperで変わる

    管理が困難―分散処理の常識はZooKeeperで変わる:ビッグデータ処理の常識をJavaで身につける(8)(1/3 ページ) Hadoopをはじめ、Java言語を使って構築されることが多い「ビッグデータ」処理のためのフレームワーク/ライブラリを紹介しながら、大量データを活用するための技術の常識を身に付けていく連載 分散処理の課題が「管理」なのは常識 複数の計算機上で動作(分散)するアプリケーション、ソフトウェアが多く存在します。分散ソフトウェアは複数の計算機で動作することで大量のデータを扱えたり、高負荷な状況に対処します。稿では、複数の計算機(クラスタ)で動作する各サーバを「インスタンス」と呼びます。 連載で紹介した分散Key-Valueデータベースである「HBase」は複数の計算機で動作する代表的なソフトウェアです。両ソフトウェアはともに「Apache ZooKeeper」(以下、Z

    管理が困難―分散処理の常識はZooKeeperで変わる
  • HBase 基礎文法最速マスター - Stay Hungry. Stay Foolish.

    基礎文法最速マスターが流行のようなので、 便乗して勉強がてらにHBaseの基操作について纏めてみます。 Perl基礎文法最速マスター - Perl入門ゼミ はてな的プログラミング言語人気ランキング - Life like a clown これを読めばGoogleのBigTableのクローンであるHBaseの基操作について何となく理解できるかも?です。 他の基礎文法最速マスターと同じように簡易リファレンスを兼ねていますので足りない部分をあればご指摘ください。 HBaseは2010-02-01時点で最新のHBase0.20.3を対象としています。 インストール方法については前記事を参照ください。 Cygwinを利用してWindowsにHBaseをインストール - Stay Hungry. Stay Foolish. 対話式シェルの実行 基 HBaseではHBase Shellという対話式

    HBase 基礎文法最速マスター - Stay Hungry. Stay Foolish.
  • Selfkleptomaniac — HadoopのnamespaceIDでエラー

  • なぜMapReduceでToolRunnerを使うのか - 気まぐれな備忘録(仮)

    つい先日、気になったこと。 というのも、自分がMapReduceジョブを実装するときは、 直接Jobを実装するので事足りており、 ToolRunnerを使ったことがなかったから。 ということで、CDH3u3のソースコードを調べてみた。 org.apache.hadoop.util.ToolRunner public static int run(Tool tool, String[] args) throws Exception{ return run(tool.getConf(), tool, args); } public static int run(Configuration conf, Tool tool, String[] args) throws Exception{ if(conf == null) { conf = new Configuration(); } Gener

    なぜMapReduceでToolRunnerを使うのか - 気まぐれな備忘録(仮)
  • ZooKeeper を使ってみる(1) - hidemonのブログ

    Hadoopのサブプロジェクトの一つにZooKeeperというのがある。分散システムを作るためのビルディングブロックとして非常に重要になってきそうなので、ちょっと調べて見ようと思う。ストリームコンピューティングシステムのS4でも使われているそうだ。どう使われているのかは知らない。 ZooKeeperとは ZooKeeperは、GoogleのChubbyを模したシステム。HadoopがGoogleのGFSとMapReduceを模したのと同じ構図だ。 じゃあ、Chubbyはなんなのか、というとこれも一言で説明するのは難しい。非常に小規模なファイルに特化した分散ファイルシステム、ということになるのだろうが、実にさまざまな目的に使われているらしい。DNS代わり、ロックサービス、サービスの死活判定などなど。ZooKeeperは一通りこれらの目的に使えるようにできているようだが、どのくらい機能的に忠実

    ZooKeeper を使ってみる(1) - hidemonのブログ
  • Hadoop MapReduceプログラムを解剖する

    オープンソース・ソフトウェア「Hadoop」のMapReduceジョブは、標準ではJavaで記述します(その他には、Pig、Hive、JAQLといったものがあります)。しかし、意外と初心者には分かりにくいと筆者は感じます。記事では、MapReduceジョブのサンプルコードを使って、できる限り正しくコードの意味を理解し、MapReduceへの入り口を示したいと思います。 HadoopでMapReduceを記述するときに使うAPIが、0.19から0.20に変わるところで新しくなっています。実は、現時点でHadoopプロジェクト体からでさえも、新APIを使ったサンプルが提示されていません。記事では、新しいAPIで筆者が書き直したサンプルを使って解説しますので、このサンプルは0.19以前のHadoopでは動かないことに注意してください。この記事は、0.20.2を使って検証し、解説しています。

  • 自作したHadoopのジョブを動かす - 研究メモ

    2010-01-17 Hadoopのアプリケーションの種類に関して 卒業研究用性能評価の設定 2010-01-16 FrontPage 2010-01-12 gnuplotメモ 2009-12-23 Job Scheduling for Multi-User MapReduce Clusters pukiwiki設定 2009-12-22 Gfarm_hadoop 2009-12-02 Sector/Sphere 2009-11-26 Hadoop Conferenceまとめ Winning a 60 second Dash with Yellow Elephant 2009-11-22 Hadoop のパラメータについて 2009-10-28 自作したHadoopのジョブを動かす 2009-10-20 Hadoop/antでビルドする HadoopのHDFSをマウント 2009-10-0

  • Hadoop HDFSコマンド実行メモ(0.20.1)

    # 全体のhelpを見る $ bin/hadoop dfs -help # コマンド単体のヘルプを見る $ bin/hadoop dfs -help ls -ls <path>: List the contents that match the specified file pattern. If path is not specified, the contents of /user/<currentUser> will be listed. Directory entries are of the form dirName (full path) <dir> and file entries are of the form fileName(full path) <r n> size where n is the number of replicas specified for the

  • HadoopのHDFS確認とサンプルプログラムの実行 - osacaz4の日記

    前回作成したHadoop環境でHDFSの確認を行います。 その後、HDFSを使うサンプルプログラムを実行します。 参考サイト:http://archive.cloudera.com/docs/cdh3-pseudo-distributed.html 準備 inputディレクトリを作成する $ hadoop-0.20 fs -mkdir input作成されたか確認する $ hadoop-0.20 fs -ls Found 1 items drwxr-xr-x - root supergroup 0 2010-06-01 22:49 /user/root/input 試しに設定用のXMLファイルをHDFSへコピー $ hadoop-0.20 fs -put /etc/hadoop-0.20/conf/*.xml inputコピーされたか確認 $ hadoop-0.20 fs -ls input

    HadoopのHDFS確認とサンプルプログラムの実行 - osacaz4の日記
  • 1