はじめに 先日、AWSのEMR(Elastic MapReduce)というサービスを使ってApache Sparkに初めて触ってみました。サンプルプログラムを作成するところまでの手順を自分でまとめてみました。前提としてS3とEC2などに触ったことがあり、キーペアやセキュリティグループは分かる方を対象としています。10分位で試せるようにしてありますので、SparkやEMRに触ったことがない方はぜひやってみてください。 1.EC2のキーペアを用意する EC2インスタンスにSSHで接続するのでキーペアがない場合は作成する必要があります。以下のAWSのサイトを見て作ってください。キーペアがすでにある方はスキップしてもらって結構です。 Amazon EC2 のキーペア - Amazon Elastic Compute Cloud 2.サンプルのファイルを用意する 今回はテキストファイルの中に単語の出
Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article? はじめに 2015/6にAmazon EMRでSparkが標準サポートされました。これにより、EMRでSpark Clusterを起動すれば、ものの10分ぐらいでSpark + IPythonの環境を構築できるようになりました。 が、AWS ConsoleのEMRの設定UIが大きく変わったり、IPythonがJupyterになり一部設定方法が変わったり、それらの変化に各種Documentが追従していなかったりと、色々ハマッたので、設定方法と、IPython上でPysparkを動かす方法をチラシの裏しておきます(2015/11時点での情報
Sloan Ahrens is a co-founder of Qbox and is currently a freelance data consultant. In this series of guest posts, Sloan will be demonstrating how to set up a large scale machine learning infrastructure using Apache Spark and Elasticsearch. This is part 2 of that series. Part 1: Building an Elasticsearch Index with Python on an Ubuntu is here. -Mark Brandon In this post we're going to continue se
こちらの続き。 sinhrks.hatenablog.com 準備 サンプルデータは iris 。今回は HDFS に csv を置き、そこから読み取って DataFrame を作成する。 # HDFS にディレクトリを作成しファイルを置く $ hadoop fs -mkdir /data/ $ hadoop fs -put iris.csv /data/ $ hadoop fs -ls / Found 1 items drwxr-xr-x - ec2-user supergroup 0 2015-04-28 20:01 /data # Spark のパスに移動 $ echo $SPARK_HOME /usr/local/spark $ cd $SPARK_HOME $ pwd /usr/local/spark $ bin/pyspark 補足 前回同様に pandas から直接 PySp
I've been working with Apache Spark quite a bit lately in an effort to bring it into the fold as a viable tool for solving some of the data-intensive problems encountered in supercomputing. I've already added support for provisioning Spark clusters to a branch of the myHadoop framework I maintain so that Slurm, Torque, and SGE users can begin playing with it, and as a result of these efforts, I'v
PySpark入門として、2014年11月06日に株式会社ALBERTで開催した社内勉強会で利用したスライドです。 PySparkのインストール方法、簡単な使い方、IPythonからPySparkをinteractive modeで触ってみるところまでを紹介しています。
Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた(前編) 最近ビッグデータ処理基盤として急速に注目を集めているのが「Apache Spark」です。 Sparkは、Hadoopと比較されることも多く、Hadoopよりも高速かつ高機能な分散処理基盤だと言われています。Sparkとはいったい、どのようなソフトウェアなのでしょうか? 今年6月にSparkのコミッタに就任したNTTデータの猿田浩輔氏に聞きました。 以下は猿田氏から伺ったSparkの紹介をまとめたものです。また、後編では猿田氏がコミッタになった経緯などもインタビューしました。 Hadoopでは複雑な処理に時間がかかる Sparkとはなにかの前に、まずはHadoopの話から始めさせてください。 Hadoopとは、ざっくり言うと分散処理フレームワーク「
レコメンドエンジンやスパム判定、音声や文字認識などは機械学習と呼ばれる技術が使われています。大量のデータをベースに新しいデータがなんであるかを判断します。ビッグデータの時代になり、特に注目されている技術になります。 PredictionIOはそのエンジンの一つで、オープンソース・ソフトウェアとして公開されています。Python、PHP、Ruby、Java向けにSDKが公開されているので、様々なサービスから利用できるでしょう。 今回はそのPredictionIOをレビューしたいと思います。インストールも試用もDockerを使って簡単にできますのでぜひチャレンジしてみてください。 必要なもの Ubuntu 14.04 LTS(CoreOS、CentOSでも大丈夫です) Docker オプション:さくらのクラウドのアカウント PredictionIOのインストール インストールはDockerさえ
boot2docker を使う方法は既に古く、公式どおり Docker Toolbox をインストールする方が良いです。 https://www.docker.com/products/docker-toolbox 因みに、近い将来リリースされる予定の Docker for mac で、更に手順が変わる事になります。 https://blog.docker.com/2016/03/docker-for-mac-windows-beta/ 少し前にDockerでMacがサポートされて、homebrewでインストール出来るようになったと聞いて。取り敢えず触ってみたメモ書きです。詳しい説明はしませんし出来ません。なるべくシンプルに行ったことを書きます。 環境は Mac OS X 10.9.2 (Marvericks) + Homebrew 0.9.5 + VirtualBox 4.3.6です。
“Learning Spark”読書会#1 に参加しました。 今回は Apache Spark インストールから MLlib の Statistics, LinearRegressionWithSGD を使ってみるまでのメモです。 Apache Spark インストール 環境は OSX 10.10.2 です。 $ curl -O https://www.apache.org/dyn/closer.cgi/spark/spark-1.2.1/spark-1.2.1-bin-hadoop2.4.tgz $ tar xzf spark-1.2.1-bin-hadoop2.4.tgz $ ln -s ~/path/to/your/spark-1.2.1-bin-hadoop2.4 /usr/local/share/spark $ PATH=/usr/local/share/spark/bin:$P
Spark 1.3.0がリリースされたらしいです。 Spark Release 1.3.0 | Apache Spark でも、いかんせんSpark使ったことなくてよくわかりません。とりあえずインストールくらいはしてみるか、と思ってやったときのメモ。 ※いろいろ試して動いたのをまとめてるだけなので、必要な手順が足りてなかったり、関係ない手順が入ってるかもです。あんまり理解できてません。。 Hadoopをインストールする 参考:Apache Hadoop 2.6.0 - Hadoop MapReduce Next Generation 2.6.0 - Setting up a Single Node Cluster. 何はともあれ、まずはHadoopをインストールしてsingle-nodeで動かします。この記事を書く時点での最新バージョンは2.6.0でした。 とりあえずJavaを入れます。
IT Leaders トップ > テクノロジー一覧 > ビッグデータ > 河原潤のITストリーム > ポストHadoopと呼ばれる「Apache Spark」にブレークの兆し:第49回 ビッグデータ ビッグデータ記事一覧へ [河原潤のITストリーム] ポストHadoopと呼ばれる「Apache Spark」にブレークの兆し:第49回 2015年7月8日(水)河原 潤(IT Leaders編集部) リスト ビッグデータを扱うための基盤環境として真っ先に名前が挙がるのが、ご存じ「Apache Hadoop/MapReduce」。一方で、数年前から先進企業/エンジニアの間で“ポストHadoop”と呼ばれている技術があります。UCバークレー・AMPLab発の「Apache Spark」です。先月、IBMが「今後10年間で最も重要なオープンソースプロジェクト」と位置づけてSparkへの注力を宣言する
We are "HOXO-M" anonymous data analysis and R user group in Japan!!! What is inconvenience of for loops in R? It is that results you get will be gone away. So we have created a package to store the results automatically. To do it, you only need to cast one line spell magic_for(). In this text, we tell you about how to use the magic. 1. Overview for() is one of the most popular functions in R. As y
先日、Spark 1.4.0 がリリースされ、多数のアップデートがある SparkR 運用モニタリングとDAGのビジュアライゼーション REST API DataFrame API この中でも、SparkR という、統計言語 R から Sparkを利用できる拡張を今回は試したい。他のHadoop関連記事では、無視されやすい Windows も取り扱う。 R には、以前から、SparkR-pkg(https://github.com/amplab-extras/SparkR-pkg/) というプロジェクトが Github上にあり、今回、これが本家に統合された形のようだ。 ビルド済みパッケージの入手 まずビルドからはじめるが、ビルドが面倒ならば、Windows にも対応したビルド済みパッケージを以下から入手できる。 Spark 1.4.0 のビルド 以前のこの記事シリーズと同じく、まずは、ビル
#!/usr/bin/env bash # This file is sourced when running various Spark programs. # Copy it as spark-env.sh and edit that to configure Spark for your site. # Options read when launching programs locally with # ./bin/run-example or ./bin/spark-submit # - HADOOP_CONF_DIR, to point Spark towards Hadoop configuration files # - SPARK_LOCAL_IP, to set the IP address Spark binds to on this node # - SPARK_P
こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析や機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。 今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式:MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。 ビッグデータ活用の市場が日々大きくなるに従って、数百テラ~ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要
前回投稿でインストールしたSparkを、pysparkから軽く触ってみる。 環境はAmazon ec2上のCentOS 6.5、CDH5(beta2)。 その前にテストデータを用意しておく。過去記事にも書いたダミーデータ生成ライブラリでこんなCSVを作った。データは10000行。ダミーデータ作るのも面倒だったらログファイルとか、テキストデータなら何でもいいと思う。 29297,Ms. Jolie Haley DDS,2014-03-19 09:43:20 23872,Ayana Stiedemann,2014-03-03 10:31:44 23298,Milton Marquardt,2014-03-26 22:19:41 25038,Damian Kihn,2014-03-23 03:30:08 23743,Lucie Stanton,2014-03-14 20:53:33 28979,
ロゴステッカーの作成計画も進行中です。近々イベント会場でお配りできるかも知れません。 チュートリアルおよび次回勉強会のお知らせ この度PyData.Tokyo初の試みとして、初心者向けのチュートリアルを3月7日(土曜日)に行います。また、次回勉強会はデータ解析に関する「高速化」をテーマにし、4月3日(金曜日)に開催します。詳細は記事の最後をご覧下さい。 Sparkによる分散処理入門 PyData.Tokyo オーガナイザーのシバタアキラ(@madyagi)です。 ビッグデータを処理するための基盤としてHadoopは既にデファクトスタンダードになりつつあります。一方で、データ処理に対するさらなる高速化と安定化に向けて、新しい技術が日々生まれており、様々な技術が競争し、淘汰されています。そんな中、Apache Spark(以下Spark)は、新しい分析基盤として昨年あたりから急激にユーザーを増
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く