Mahout の、と言いつつ今回も Hadoop の話ばかり。 Hadoop は各ノードにアプリケーションを配布する関係から、通常 jar を作らなければならない。そのため、Eclipse で書いたコードを実行するのもデバッグするのも非常にめんどくさい。 でもうまくやれば、スタンドアローンモード限定だが、Eclipse から jar も作らずそのまま Map-Reduce ジョブを起動できる。デバッグ実行もできるので、ブレイクポイント入れてステップ実行とかも可能だ。 今回はそういう環境の作り方の話。ずいぶん苦労したけど、出来るようになったら簡単。 Eclipse のセットアップなどは済んでいるものとする。Mahout の開発環境を Maven+Eclipse で作る (1) - Mi manca qualche giovedi`? 参照。 なお、Hadoop を展開すると contrib/
Amazon Elastic MapReduceでニコニコデータセットを使ってHiveとImpalaの速度を比較する。hadoophiveImpalaElasticMapReduceEMR EC2安くなる 気がついたら、EC2がだいぶ値下げしていて、我が家の ニコニコデータセットの分析環境のHive利用料も安くなっていた。 参考 【AWS発表】42回目の値下げ!EC2、S3、RDS、ElastiCache、そしてElastic MapReduceも! http://aws.typepad.com/aws_japan/2014/03/aws-price-reduction-42-ec2-s3-rds-elasticache-and-elastic-mapreduce.html 値段の問題もあり、ニコニコデータセット分析環境は、hadoopのバージョン1系でm1.mediumを3台利用して、分
Eclipseの設定 チュートリアルのページではjavacコマンドを使ってコンパイルしているが、やはりコーディングにはEclipseを使いたい。 Hadoopのjarファイルをビルドパスに追加するだけでよい。 jarファイル 備考 チュートリアルのソース チュートリアルのソースはHadoop0.20.1より前のバージョンのものらしく、0.20.1だとコンパイルが警告になる(警告になるだけで、実行は出来る)。 なので、(正しいかどうか分からないけど^^;)0.20.1用に直してみた。 // http://oss.infoscience.co.jp/hadoop/common/docs/current/mapred_tutorial.html 2010-02-21 package jp.hishidama.hadoop.tutorial; import java.io.IOException;
2014/6/13 新しい記事があります。 「EclipseでHadoop2.4の開発環境を作る&ワードカウントのプログラムを作成する。」 - Hadoopを実験するにあたって、プログラムが作れる環境を構築した。 構築には、「30 分で NetBeans を使って Hadoop のプログラムを作ってみる」 を参考にさせていただいた。ただし、慣れているEclipse(Juno)を使うことにした。 開発機はMac Book Pro (OSX Lion)。 まず、Eclipseの本家ページより、Eclipse Juno JEEをダウンロードして、抵当な場所に解凍し、wordbenchを開くところまでやる。 次にhadoopの本家サイトより、hadoop-1.1.2をダウンロードし、ホームディレクトリに解凍、以下のようなシンボリックリンクを張った。 Javaプロジェクトの作成 javaパースペクテ
Hadoop-GfarmプラグインはHadoopからGfarmを使うためのプラグインです. Hadoop本体のコードを修正することなく,ビルドしたライブラリファイルを追加し,設定ファイルに少し加えるだけでHDFSの代わりにGfarmをHadoopのファイルシステムとして使えます. Gfarmはオープンソースの共有ファイルシステムですが,詳細はこちらへ Hadoop-Gfarmのソースコードは以下のコマンドでsourceforgeから入手可能です. svn co https://gfarm.svn.sourceforge.net/svnroot/gfarm/gfarm_hadoop/trunk gfarm_hadoop Hadoop-Gfarm をビルドするには build.sh の JAVA_HOME と HADOOP_HOME を編集します。 #!/usr/bin/env bash
これまでずっとEmacsで暮らしてきた人間が,HadoopのためにまさかのEclipse導入です. trunk(今回はMapReduce部分)をコンパイルするところまでのメモ. なお,参考URLにある,Vimeoの動画を先に見た方がよいです. 何はともあれEclipse Eclipse Downloadsからバイナリをダウンロードして,インストール 環境設定 ANT_HOME設定 Java-BuildPath-Variablesを選んで,ANT_HOMEを/usr/share/antにします Pluginインストール SVNKitをインストール (http://eclipse.svnkit.com/1.3.x/) Subclipseをインストール (http://subclipse.tigris.org/update_1.2.x) ただし,PCにインストールされているSubversionの
環境は Mac OS10.7.4 Eclipse Version: Indigo Service Release 2 eclispe ivy pluginのインストール http://www.atmarkit.co.jp/fjava/rensai4/devtool22/devtool22_1.html を参考にivyのpluginをeclipseにインストール hadoopのsvnリポジトリからcheckoutする http://svn.apache.org/repos/asf/hadoop/common/trunk 直下をcheckoutする ※このsvnディレクトリをrootディレクトリとした階層プロジェクトになっている。(pom.xmlのparentタグを利用している) 依存ライブラリの解決 Ivyによるライブラリダウンロード svnからのcheckoutしたプロジェクトだとivy.
SGホールディングスがビッグデータの利活用に乗り出した。新たに分析基盤を構築し、年間13億個に及ぶ宅配便のデータを解析。出荷の伸びが期待できる見込み客を特定したり、配送トラックの割り当てを見直したりする。新システムで分析時間は従来の15分の1になる見込みだ。 佐川急便を中核とするSGホールディングス(SGHD、京都市)は、蓄積した「宅配便ビッグデータ」を分析し、取引が拡大できそうな顧客企業の発掘や、配送トラックの積載効率向上に役立てようとしている。 SGHDは2014年春から順次、「ビッグデータ分析基盤システム」を稼働させる。米EMCや米ヴイエムウェア、米GE(ゼネラル・エレクトリック)が出資する米Pivotalの分散データベースソフト「Pivotal Greenplum Database」を採用し、宅配便ビッグデータの分析に必要なシステム基盤を整備する。 新システムは、大量のデータを複数
この2ヶ月で,Cloudera/Twitter,Hortonworks からそれぞれ別の列指向ファイルフォーマットが公開されました.Parquet と ORCFile です. この記事では,まず RCFile の復習をして,その後 Parquet と ORCFile それぞれの共通点と違いをおおまかに見ていこうと思います.コードレベルの詳細な違いについては,次回以降で見ていきます. RCFile の復習 RCFile は Record Columnar File の略で,Hive から利用できるストレージフォーマットです.特に,HDFS や S3 といった分散ストレージ上でパフォーマンスがでるように設計されています. HDFS/S3 といったストレージでは,基本的にデータを計算機間で同じ負荷になるようにデータを分散配置します.このため,従来の列指向ストレージフォーマットのように適当に列毎に
大規模分散技術勉強会 in 名古屋 トップページページ一覧メンバー編集 Hadoop本読書会 - 3章 Hadoop分散ファイルシステム 最終更新:ID:oTc6wz6Jsg 2010年11月11日(木) 23:57:07履歴 Tweet Hadoop本 3章 Hadoop分散ファイルシステム の疑問点や気になる点について記述してください。 ※記入者、該当ページ・該当行は忘れずに書いて下さい。 HDFSって? [記入者] terurou [該当箇所] 3章全般 Hadoop Distributed FileSystem(Hadoop分散ファイルシステム) 一台のサーバでは扱えない大規模なデータ(ファイル)を、複数のサーバをクラスタ化することで扱えるようにする。 クラスタ化することにより発生しうるネットワーク障害・ハードウェア障害について考慮されて設計されている。 HDFS上のデータを冗長化
第3回でディストリビューションとディトリビューターや製品ベンダーを詳しく説明しましたが、その後2012年6月に様々なベンダーからApache Hadoop関連製品が新たにリリースされています。 米クラウデラは2012年6月5日(現地時間)、Apache Hadoopバージョン2をサポートしたCDH 4.0.0をリリースしました。 同じくHadoopのディストリビューターである米ホートンワークスも2012年6月12日(現地時間)、Apache HadoopのディストリビューションHortonworks Data Platform (HDP) 1.0を、Apache Hadoop 1.0.3ベースでリリースしました。このディストリビューションには管理とモニタリングサービスを提供するコンポーネント、Apache AmbariベースのHortonworks Management Center (H
こんばんは、はじめまして、 Skipperです。 今日は、Hadoopに関連して、 Hadoopの環境にあると便利なツールの1つを紹介します。 #他にもKickStart、puppet、WOLなどあるのですが、書ききれないので #1つに絞りました。 parallel-ssh Hadoopで性能出すためには、 マシンを最低10台必要だと言われています。 ですが、仮に10台のマシンを用意したとして、 1台1台ログインしてログ集めたり、Hadoopのサービスを再起動したり… というのは面倒ですよね。 このparallel-sshは、そんな面倒な操作をすべて1回でやってくれます。 私もこれで複数台のPCを一度にシャットダウンの画面にしたときは、 ちょっと感動しました。 使い方 使い方はいたって簡単。 一度に操作したいマシンのホスト名(IPアドレス)をファイルに書き出し、 [hostlist] ce
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く