はじめに ビッグデータ解析のためのシステム基盤として、Hadoopをはじめとするオープンソースのデータ処理ソフトウェア(データ処理系)が広く利用されつつありますが、当該データ処理系をすでに利用している、もしくは利用の検討をしている読者の方々の中には、たとえば以下のような問題を抱えている方が少なからずいらっしゃるのではないでしょうか。 データ処理系の使い方はなんとなくわかるが、その内部をあまり理解できていない。または、内部の動作原理がよくわからないので、本格的に使う気にならない。 同様の目的を達成する複数のデータ処理系において、どれを使って良いかがよくわからない。または、適切に使い分けられていない気がする。たとえば、どのような場合にHadoopを用いて、どのような場合に同類のデータ処理系であるImpalaやSparkを用いれば良いかが“明確に”わからない。 このような問題を解決するには、
How to Setup Hadoop 2.6.5 (Single Node Cluster) on Ubuntu, CentOS And Fedora Apache Hadoop 2.6.5 noticeable improvements over the previous stable 2.X.Y releases. This version has many improvements in HDFS and MapReduce. This how-to guide will help you to install Hadoop 2.6 on CentOS/RHEL 7/6/5, Ubuntu and other Debian-based operating system. This article doesn’t include the overall configuration t
hadoopを1台のlinuxマシン(centOS)に擬似分散モードでインストールしました。 # CentOS 6.0 # hadoop-0.22.0 # グループ、ユーザ新規追加 sudo groupadd hadoop sudo useradd -d /home/hadoop -m -g hadoop hadoop # パスワード設定 passwd hadoop ■jdk # oracleのjdkじゃないとダメ # ブラウザからダウンロードしてscp scp /develop/jdk-6u29-linux-i586.bin takadayuichi@${ドメイン or IPアドレス}:/tmp/. sudo su mv /tmp/jdk-6u29-linux-i586.bin /usr/java/. chmod +x /usr/java/jdk-6u29-linux-i586.bin
Standaloneモードでは、複数のホストを使った処理は行わない。デーモンも動かさない。 しかしHadoopは分散処理をしてナンボである。 分散処理をする場合には、複数のホストでいくつかのデーモンを動作させる必要がある。 それはまあ当然。 ただ、いきなり複数ホストを使うのはハードルが高い。 そこで、「Hadoopは複数ホストで動いているつもりだけど実際は1台のホストで動いている」モードで設定の確認をする。 これが擬似分散(Psuedo-distributed)モード。 擬似分散モードに必要な各設定の意味 擬似分散(Psuedo-distributed)モードの動作には以下、四つの設定が必要。 完全分散(Full distributed)モードでも変わらないんだけどね。 HDFSのメタデータを格納するnamenodeの設定 データをいくつ複製(replication)するかの設定(デフォル
概要 Eclipse + Maven + ScalaでMapReduceしてみた。 割と強引なやり方なのでこれが正しいのかと言われると微妙ですが、とりあえず我が家の環境ではそれなりに動いてくれてます。 JavaやHadoopの導入は済んでいるものとします。済んでない場合は、とりあえず擬似分散モードなどで動く状態を作りましょう。本例ではCDH3を使って完全分散モード上で動かしています。 @Date 2011/11/02 @Versions CDH3, Scala2.9.1, Eclipse3.7, Maven2 @Updated 2012/02/26 Mavenのscopeでprovidedを使うよう変更 必要なものを揃える まずMaven2をインストールします。sbtでもできると思います。 $ sudo apt-get install maven2 次にEclipseをダウンロードします。
直近で、学習用にタイトル通りの環境が欲しかったので、Vagrant + Chef Solo で構築しました。 githubで公開しています。 at-grandpa/local-hadoop · GitHub ある程度の環境が揃っている方( VirtualBox や Vagrant などがインストールされている方)でしたら、以下のコマンドでhadoop環境が得られます。 $ git clone https://github.com/at-grandpa/local-hadoop.git $ cd local-hadoop $ vagrant up 詳しいセットアップ方法などは、githubのREADMEを御覧ください。 よーし、hadooooooop するぞー!
The document summarizes the key changes between the old MapReduce API and the new MapReduce API in Hadoop. Some of the main changes include: - Renaming all "mapred" packages to "mapreduce" - Methods can now throw InterruptedException in addition to IOException - Using Configuration instead of JobConf - Changes to Mapper, Reducer, and RecordReader interfaces and classes - Submitting jobs uses the J
プロジェクト管理ツールである Apache Maven で Hadoop MapReduce プログラムを管理する方法について。今回作成したプロジェクトは github で公開している。 手順 1. プロジェクトの作成 まずはじめにプロジェクトを作成する。 $ mvn archetype:create -DgroupId=org.holidayworking -DartifactId=hadoop-maven-sample 引数で指定している group-id にはプロジェクトのルートパッケージ名、artifactId にはプロジェクト名を指定する。今回はルートパッケージ名を org.holidayworking、プロジェクト名を hadoo-maven-sample としている。 2. pom.xml の編集 ライブラリとして hadoop-core.jar が必要となる。今回は Clo
Error message : Directory is not found or not writable (DATA_DIR) Directory is not found or not writable (DIFF_DIR) Directory is not found or not writable (BACKUP_DIR) Directory is not found or not writable (CACHE_DIR) Site admin: whitestar Copyright © 2006-2023 whitestar. All Rights Reserved. Icons powered by famfamfam. PukiWiki 1.5.0 Copyright © 2001-2006 PukiWiki Developers Team. License is GPL
Product and service reviews are conducted independently by our editorial team, but we sometimes make money when you click on links. Learn more. Hadoop is the foundation of most big data architectures. Now in its second version, here's how the new Hadoop 2 compares to Hadoop 1. The progress from a Hadoop 1's more restricted processing model of batch oriented MapReduce jobs, to more interactive and
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く