「夏真っ盛り!Spark + Python + Data Science祭り」で @chezou が発表した資料です http://connpass.com/event/34680/Read less
![Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS](https://cdn-ak-scissors.b.st-hatena.com/image/square/940e1b166f2e15f8a937fb790f01d9a9daa1fbb9/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2Fdsfesibispublish-160725104539-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)
「夏真っ盛り!Spark + Python + Data Science祭り」で @chezou が発表した資料です http://connpass.com/event/34680/Read less
サンプルデータ: 身体情報から結婚時期を予測する CSV形式のダウンロード データの傾向 ただ無差別にデータを作っても、予測が合ってるかどうかの判断がつかないため、 以下の様な事実無根な法則で値をでっちあげてみた。 B型は早婚 O型は晩婚 AB型はとても早婚 女性は早婚 肥満とモヤシは晩婚 男性の高身長はとても晩婚 コーディング前の準備 Apache Zeppelinのインストール Spark(ScalaやPython)の記述やその他細かいシェルスクリプトなどの操作をWeb上でインタラクティブに行えるノートブック系OSS1。この記事では、Sparkの操作は基本的にこのソフトを用いてコーディングを行っている。Sparkも一緒に含まれているので、これをローカルにインストールするだけで概ね動くはず。 Apache Zeppelin (incubating) https://zeppelin.in
こんにちは。SI部の腰塚です。 RDBやデータウェアハウスの仕事に携わることが多かった筆者は、数年前からたびたび聞こえたビッグデータ分析や機械学習のための分散処理フレームワークに興味を覚えたものの、ついぞアクセスしないままここまで来てしまいました。 今回ブログを書くにあたって、せっかくなのでイチから手さぐり入門し、いまさら他人に聞けない分散処理の初歩からhadoop・sparkを触ってみるまでをまとめたいと思います。 1.分散処理の基礎知識 1-1.分散処理の処理方式:MapReduce まず分散処理とは、ひとつの計算処理をネットワークで接続した複数のコンピュータで同時並列で処理することです。 ビッグデータ活用の市場が日々大きくなるに従って、数百テラ~ペタのデータ処理も珍しいものではなくなっており、日常的にこの規模のデータを扱うシステムでは、現実的な時間的・費用的コストで処理する工夫が必要
8月中はSparkを利用したレコメンドシステムの構築を主にやっていたので、今回はそのことについて記載していきます。 Sparkとは BigDataを高速に分散処理を行うフレームワークで、以下のパッケージで構成されている。 Spark Core Spark SQL Spark Streaming MLib(Machine Learning Library) GraphX サポートしている言語 Python Java Scala R 1.6以降からデータフレームの機能が追加され、以降アップデートの際、RDDで提供されている機能が徐々に移植されている。 2.0以降はMLibでRDDはメンテナンスモードに入り、新規機能の追加はRDDでは行われなくなる模様。 EMR on Spark EMRとは Amazon EMR は、AWS でビッグデータフレームワーク (Apache Hadoop や Apa
2016/07/25に「夏真っ盛り!Spark + Python + Data Science祭り」を開催しました。 connpass.com 今回はClouderaに入って初めてのコミュニティイベントということでしたが、なんと400人を超える応募をいただいてとてもありがたい限りです。 会場をご提供いただいたDMM.comラボ様、発表いただいたサイバーエージェントの内藤さん、DMM.comラボの加嵜さん、LTの皆様ありがとうございました。 togetter.com pandasを大規模データにつなぐIbis Ibis: すごい pandas ⼤規模データ分析もらっくらく #summerDS from Cloudera Japan www.slideshare.net Ibisはpandasの作者でもある Wes McKinney(@wesmckinn) の作っているライブラリです。 ひとこ
データ分析から導き出されたインサイト無しにAI(人工知能)の活用は始まりません。私たちは、各業界知識とデータ・アナリティクス技術を駆使しデータドリブン経営を強力に支援します。 データ、アナリティクス、AIは企業にとって競合他社との差別化を図るかつてないほど大きな要因になっています。今日の経営幹部が効率を向上しながら新たな収益源を開拓し、新しいビジネスモデルをタイムリーに構築する方法を模索する中、価値を生み出し成長を続ける企業には「データ活用」という共通項があります。私たちは、無数のデータから企業にとって本当に必要なデータを活用するための方法を知っています。 将来を見据えたオペレーション体制を備えている企業の半数以上(52%)は、すでにデータとアナリティクスを大規模に活用しています。データとAIに関する取り組みをビジネス戦略に沿って実施することで投資利益率を迅速に最大化し、最終的にはAIをビ
こんにちは、弊社で1ヶ月半ほどインターンとして働いているt_sakaiです。 インターンシップの課題として、メモリ使用量が大きくて将来問題になりそうなバッチ処理をスケールアウトできるように書き換えるという課題に取り組みました。 解決手段として流行りのApache Sparkを使ってみたので、本記事ではこれについて書こうと思います。 本記事で使っている言語はScalaです。 前編ではSparkを選んだ理由とSparkの基礎について説明したので、後編では既存プログラムをSpark用に書き換える際の問題と解決方法について説明します。 本記事で紹介する内容 前編 今回解決したかった課題 なぜSparkを選んだのか RDDについて 簡単なプログラムをSparkで書き換える 後編(本記事) 本番プログラムをSpark用に書き換える はまりどころ 本番プログラムをSpark用に書き換える モデル(DB)
Hadoopの時代は終わった、という言説をたまに見かけるようになりました。 もちろん終わってなどいません。しかし、Hadoopとその取り巻く環境が変化したのは事実です。 本記事では、この変化が何なのかを明らかにし、その上で、なぜHadoopの時代は終わったという主張が実態を正しく表していないのかを説明していきます。 DISCLAIMER 私はHadoopを中心としたデータ基盤を取り扱うベンダー、Clouderaの社員です。 中立的に書くよう努めますが、所属組織によって発生するバイアスの完全な排除を保証することはできません。 以上をご了承の上、読み進めてください。 要約 データ基盤は、Hadoopの登場により非常に安価となり、今まででは不可能だった大量のデータを取り扱えるようになりました。 Hadoopは、NoSQLブームの中、処理エンジンであるMapReduceとストレージであるHDFSが
はじめに 前回は、Sparkで処理を実行したときのボトルネック箇所と、その対策について解説しました。今回は、「本検証のシナリオではどのようなクラスタ構成が良いか」検証した結果を解説します。 Spark2.0のパラメータチューニング 最適なクラスタ構成を検討するにあたり、今回はSparkの(設定ファイルspark-defaults.confに記述できる)パラメータのうちいくつかをチューニングします。条件は次の通りです。 Sparkのバージョンは2.0 処理対象のデータは365日分の消費電力量データ Sparkのシャッフルファイル出力先ディスクはHDFSと共用(前回解説したもの) パーティション数のチューニング Sparkはデータを「パーティション」という単位で並列処理します。処理の流れは以下の通りです(図1)。今回はシャッフル処理後の適切なパーティション数を検証します。 (1)データソースか
シンボル表現と$メソッドはimport sqlContext.implicits._を行い、implicit classをインポートすると使えるようになります。 ・WHERE WHEREはデータのフィルタリング条件を指定します。 ※ここらへんはSQL99等の仕様と同じです。 SQL >>> SELECT * FROM dataframe WHERE col2 > 0 DataFrame >>> DataFrameではfilterを使うこともできます。 DataFrame .where( $"col2" > 0 ) DataFrame .filter( $"col2".isNull ) ・JOIN JOINは複数のデータ(テーブル)を条件に従って結合します。 使えるJOINタイプは下記のとおりです。 単にJOINとだけ指定するとINNER JOINとなります。 LEFT SEMI JOINは
I want to use Spark's mllib.recommendation library to build a prototype recommender system. However, the format of the user data I have is something of the following format: AB123XY45678 CD234WZ12345 EF345OOO1234 GH456XY98765 .... If I want to use the mllib.recommendation library, according to the API of the Rating class, the user ids have to be integers (also have to be contiguous?) It looks like
1年くらい前にレコメンドロジックを実装するにあたってSpark MLlibのmllibパッケージ内のRDD版を使っていたのですが、 データの整形など不便だったため、その後リリースされたmlパッケージ以下のDataFrame版を使ってみたい。 きっと楽なはずということでサンプル的なものを実装してみました。 RDDとDataFrame RDD(Resilient Distributed Datasets)は、Spark上で分散処理可能なimmutableなデータセット DataFrameは、RDDを構造化したもので、RDBのテーブル的に処理が可能 DataFrameがより抽象化されたレイヤーで扱えるので、使う側からは楽なのとDataFrameのAPIがジョブを最適化してくれるというメリットもあります。 レコメンドアルゴリズム Spark MLlibに用意されているALSというクラスを使います。
はじめに 前回はSpark Streamingの概要と検証シナリオ、および構築するシステムの概要を解説しました。今回はシステムの詳細構成と検証の進め方、および初期設定における性能測定結果について解説します。 この検証ではメッセージキューのKafka、ストリームデータ処理のSpark Streaming、検索エンジンのElasticsearchを組み合わせたリアルタイムのセンサデータ処理システムを構築しています。今回はKafkaとElasticsearchの詳細なアーキテクチャやKafkaとSparkの接続時の注意点も解説します。 システムの詳細構成 マシン構成とマシンスペック 評価に向けたマシンの初期構成を図1に示します。本システムは以下のノードから構成されます。 センサデータを収集してKafkaに送信する収集・配信ノード Kafkaクラスタを構成してメッセージの受け渡しを行うキューとして
Sparkを触る機会が増えてきてるので、知識の棚卸しを兼ねてMLlib使ってレコメンデーションシステムを実装してみました。SparkSamit2014などMLlibのチュートリアル的に色々使われているSparkのMovie Recommendationですが、edXのIntroduction to Big Data with Apache Sparが内容的にも良さそうだったので、題材にしながら実装しました。本講座はSpark 1.3.1での実装ですが少し古すぎるので、1.6.1で使える機能は使う形でコード変えてます。 おおまかな手順 ①データの準備 元データを訓練、評価、テストデータにそれぞれ分割 ②評価数500以上の映画の中から平均評価点が高いものを表示 ③協調フィルタリングの実装 ④訓練データに自分をuserID"0"として加え、好きな映画を評価 ⑤自分の評価をもとに、アルゴリズムに映
こんにちは、データアナリストの青木とエンジニアの樋口です。 引き続き、Spark Summit 2017 San Fransiscoの記事です。Keynoteやセッションで特に興味深かったものを紹介していきます。 Keynote Coming in Spark 2.2 まずは、Spark2.2に関する情報がきました。注目点は以下。 コストベースSQLの最適化 structured streamingがproduction-readyとなった pip install pyspark が可能となる すでにgitではv.2.2.0-rc4のtagが打たれていることから、リリース間近なようですね。 続いて大きな発表がありました。 Two new open source from Databricks おそらくこの発表がSummitの目玉だったようです。 今後Databricksは以下2つについて、
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く