[B! docker][Spark] nobusueのブックマーク

Apache Sparkで、HDFS上のファイルを読み書きする - CLOVER🍀

Apache Sparkで、HDFS上のファイルに対して読み書きをしてみます。といっても、SparkContext#textFileやRDD#saveAsTextFileへ渡すパスを、「hdfs://」から始まるものにすればよさそうです。なお、HDFSとSparkですが、今回はCDH 5.4.4で構築してみました。なので、Apache Sparkは最新版の1.4系ではなく、1.3系になっています。プログラム LuceneのStanardAnalyzerを使い、SparkのREADME.mdのWord Countをするプログラムを書いてみます。とりあえず、ビルド定義から。 build.sbt name := "word-count-lucene-analyzer-cdh-hdfs" version := "0.0.1-SNAPSHOT" scalaVersion := "2.10.4

nobusue 2015/08/05

Spark
Docker

リンク

Spark on Dockerで分散型機械学習を始める - Part1: インストール - Qiita

日経BPのITインフラテクノロジーAWARD 2015が発表されました。2015年にブレークすると予想されるクラウドやビッグデータの製品やサービスを選出しています。グランプリにDocker、準グランプリにApache Sparkが選ばれました。Sparkは2014年に入り盛り上がってきています。インメモリで高速に分散処理ができるため、機械学習のような繰り返し処理に向いています。MLibの機械学習ライブラリもあるので分散型機械学習フレームワークとして注目を集めています。そんなDockerとSparkを使い手軽に分散型機械学習の環境をつくり勉強していこうと思います。このシリーズ Spark on Dockerで分散型機械学習を始める - Part 1: インストール Spark on Dockerで分散型機械学習を始める - Part 2: UbuntuでIPython Notebookを使

nobusue 2015/02/07

Spark
Docker

リンク

Spark on Dockerで分散型機械学習を始める - Part2: UbuntuでIPython Notebookを使う - Qiita

Spark on Dockerで分散型機械学習を始める - Part2: UbuntuでIPython Notebookを使うhadoopSpark機械学習ipython_notebook sequenceiq/sparkのDockerイメージはCentOS 6.5を使っているので、そのままではIPythonのインスト-ルに失敗してしまいます。SequenceIQにはUbuntuのbaseimageもあります。これから自分でSparkのDockerfileを作ろうと思いましたが、ちょどよいイメージがLogBaseInc/docker-spark-ipythonがありました。このシリーズ Spark on Dockerで分散型機械学習を始める - Part 1: インストール Spark on Dockerで分散型機械学習を始める - Part 2: UbuntuでIPython Note

nobusue 2015/02/07

Docker
Spark

リンク

2015年にブレークする技術はこれだ！

日経BP社は2014年12月22日、ITインフラを対象とした新たなアワード「ITインフラテクノロジーAWARD」の受賞技術・製品・サービスを選出、発表した。本アワードは、クラウドサービスやビッグデータ基盤など、ITインフラの急速な進歩を受け、日経SYSTEMSが中心となって今後注目すべき技術・製品・サービスを選出するものだ。今回が初めての選出で、翌年企業への導入が急速に進む（ブレークする）と見られる「グランプリ」と「準グランプリ」を選出。また、急速な普及は不透明なものの、インパクトが特に強い技術・製品・サービスについて「特別賞」を選出した。初代グランプリは「Docker」では、2015年にブレーク必至の技術・製品・サービスは何か。図1に挙げたのが、グランプリ、準グランプリ、特別賞の3賞だ。