第21回Sparkの設計と実装[2]~Sparkにおけるデータ共有の仕組みと耐障害性の実現方法 猿田浩輔,山田浩之 2016-06-08
概要 Eclipse + Maven + ScalaでMapReduceしてみた。 割と強引なやり方なのでこれが正しいのかと言われると微妙ですが、とりあえず我が家の環境ではそれなりに動いてくれてます。 JavaやHadoopの導入は済んでいるものとします。済んでない場合は、とりあえず擬似分散モードなどで動く状態を作りましょう。本例ではCDH3を使って完全分散モード上で動かしています。 @Date 2011/11/02 @Versions CDH3, Scala2.9.1, Eclipse3.7, Maven2 @Updated 2012/02/26 Mavenのscopeでprovidedを使うよう変更 必要なものを揃える まずMaven2をインストールします。sbtでもできると思います。 $ sudo apt-get install maven2 次にEclipseをダウンロードします。
リクルートグループは、自社のサービスに分散データ処理技術の「Apache Hadoop」を徹底活用している。リクルートグループは、Hadoopをどう活用しているのか。Hadoop採用の理由とは。2012年10月に開催されたデータ活用関連イベント「第1回 ビッグデータ&データマネジメント展」で講演した、リクルートテクノロジーズ ITソリューショングループ ビッグデータグループの石川信行氏の話を基に紹介する。リクルートテクノロジーズは、2012年10月に持ち株会社制に移行したリクルートグループでシステム開発を担う。 関連記事 医療分野のビッグデータ事例 「Hadoop」を採用した徳島大学病院 ビッグデータ対応、約半数の企業が「Hadoop採用予定なし」の理由 Hadoopなどのビッグデータ技術が本当に普及するための条件 リクルートグループは現在、住宅情報や宿泊予約など全13事業と、「グループの
先日、Hadoop ConferenceでScala on Hadoopというタイトルで発表してきました。スライドを以下に置いておきます。 Scala on HadoopView more presentations from Shinji Tanaka. ダイジェストとして、ScalaをHadoopで動かすための方法を書いておきます。 まず、Hadoop上でScalaを実行させるためには、JavaとScalaを接続するライブラリが必要となります。ここでは、SHadoop( http://code.google.com/p/jweslley/source/browse/#svn/trunk/scala/shadoop )を使用します。SHadoopは、型変換を行うシンプルなライブラリです。 よくあるWordCountのサンプル、WordCount.scala (http://blog.jo
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く