[B! spark] mooonymannのブックマーク

AWS Solutions Architect ブログ

Apache SparkとAmazon DSSTNEを使った、Amazon規模のレコメンデーション生成 Amazonのパーソナライゼーションでは、お客様毎の製品レコメンデーションを生成するためにニューラルネットワークを使っています。Amazonの製品カタログは、あるお客様が購入した製品の数に比較して非常に巨大なので、データセットは極端に疎になってしまいます。そして、お客様の数と製品の数は何億にものぼるため、我々のニューラルネットワークのモデルは複数のGPUで分散しなければ、空間や時間の制約を満たすことができません。そのため、GPU上で動作するDSSTNE (the Deep Scala ble Sparse Tensor Neural Engine)を開発しオープンソースにしました。我々はDSSTNEを使ってニューラルネットワークを学習しレコメンデーションを生成していて、ECのウェブサイト

mooonymann 2016/07/11

Amazon
spark

リンク

[翻訳] Spark Architecture: Shuffle - Qiita

TungstenのShuffleまでカバーされていて、感動してしまったので、翻訳（意訳）してみました。元記事: Spark Architecture: Shuffle これは Apache Spark のアーキテクチャに関する2本目の記事です。今回は、Spark デザインの中で、もっと面白い Shuffle について詳しく紹介します。前回の記事は、Spark のアーキテクチャとメモリ管理についてでした。一般的に Shuffle とはなんでしょうか？電話の履歴リストがテーブルにあり、それぞれの日にどのくらい電話があったかを数える場合を考えてください。この場合は、各レコードを"day"をキーにして（それぞれの電話の回数として）バリューを"1"として変換します。この処理の後、各キーごとのバリューを合計することでそれぞれの日の電話の回数が得られます。しかし、データがクラスタに分散して保存され

mooonymann 2016/05/05

リンク

Spark内部構造解説ドキュメントのリンク集 - Qiita

Apache Sparkの内部構造・動作について説明している情報源を紹介します（今後、随時更新していきたいと思いますので、誤り・他の情報源などありましたらお知らせください）。（翻訳を除き）全て英語のスライド・文書ですが、長い文が書かれているものは少ないので、理解できるかと思います。全体像 A Deeper Understanding of Spark’s Internals https://spark-summit.org/2014/wp-content/uploads/2014/07/A-Deeper-Understanding-of-Spark-Internals-Aaron-Davidson.pdf Execution modelとShuffleに絞って解説しています（Cachingについては説明していません） Spark Architecture http://0x0fff.c

mooonymann 2016/05/05

Apache
spark

リンク

MySQLではできないことができるデータベース(広義)達

自分は一応暫くMySQLの開発者だったので、MySQLでできることできないことはすぐわかる訳です。現実的な問題と対峙すること１年間、MySQLは使えることにしか使わないわけで、そうすると構築してしまうと、アラートメールが全く来ないので、水や空気のように存在を忘れてしまいます。でも、使えないことには全く使う気がしないわけで…。というわけでMySQLは結局逆にあまり触れていません。限られた範囲では完成を見ているというわけでしょうか。データを処理して何か貯めて利用できるものをデータベースとするならば、MySQLを適用する気も起きないような領域があって、近年はそのような領域に挑む別の道具が出てきています。今回は趣向を変えて、いろいろ現状MySQLでは扱えない問題の解決法を模索したことについて少し触れます。MySQLを離れた話題ですが、いつか遠い未来にMySQLの世界に持って帰る事柄かも知れませ

mooonymann 2016/03/13

リンク

DeNAの分析を支える分析基盤

Hadoop/Spark Conference Japan 2016でのライトニングトークの資料 by Ryosuke Iwanaga (@riywo) This document summarizes a microservices meetup hosted by @mosa_siru. Key points include: 1. @mosa_siru is an engineer at DeNA and CTO of Gunosy. 2. The meetup covered Gunosy's architecture with over 45 GitHub repositories, 30 stacks, 10 Go APIs, and 10 Python batch processes using AWS services like Kinesis, Lambda, SQS a

mooonymann 2016/02/04

リンク

Spark の MLlib を使った Dataproc でのレコメンドシステムの実装 - Qiita

はじめに前回の Advent Calendar の投稿では, 簡単に Dataproc の特徴について説明を行いましたが、今回は, 実際に Dataproc を使ったレコメンドシステムの実装について解説したいと思います。実装するシステムの概要【追記】下記では、BigQuery から直接読み込む実装にしていますが、データ量が大きい場合（数百MB以上）は、テキストデータに比べて読み込みに大幅に時間がかかるため、BigQuery から GCS へ一旦エクスポートし、CSVファイルとして読み込むことをお勧めします。本投稿では、ユーザーのアイテムに対するLikeや閲覧履歴から、ユーザーに対してアイテムをレコメンドするシステムを実装します。ライブラリとしては、Matrix Factorization を Alternating Least Square という手法で計算するライブラリを使って

mooonymann 2016/01/14

リンク

『Sparkによる実践データ解析』という本の付録を執筆しました - ほくそ笑む

リクルートの高柳さんと共同で『Sparkによる実践データ解析』という本の付録を執筆しました。 Sparkによる実践データ解析 ―大規模データのための機械学習事例集作者: Sandy Ryza,Uri Laserson,Sean Owen,Josh Wills,石川有,Sky株式会社玉川竜司出版社/メーカー: オライリージャパン発売日: 2016/01/23メディア: 大型本この商品を含むブログ (4件) を見る執筆した付録の内容は「SparkRについて」です。 SparkR は、R 言語から Spark を使うためのパッケージで、公式サポートされています。 SparkR については、以前 Spark Meetup で発表しました。 Spark Meetup 2015 で SparkR について発表しました #sparkjp - ほくそ笑むこのときはまだ、機能として不十分な点が目立ちま

mooonymann 2016/01/14

Spark
r

リンク

Cloudera Blog

Enterprises see embracing AI as a strategic imperative that will enable them to stay relevant in increasingly competitive markets. However, it rem ains difficult to quickly build these capabilities given the challenges with finding readily available talent and resources to get started rapidly on the AI journey. Cloudera recently signed a strategic collaboration agreement with Amazon […] Read blog p

mooonymann 2016/01/14

リンク

Sparkによる実践データ解析

本書は、データサイエンスの4人のエキスパートがSparkでの高度な分析方法を解説するとともに、より実践的なデータサイエンスを学ぶ書籍です。ビッグデータ分析におけるSparkの位置づけを紹介し、ベストな結果を得るためのデータの準備やモデルのチューニングについて解説します。またデータクレンジングのユースケースを通じてSparkとScalaによるデータ処理の基本を学習し、Sparkを使った機械学習の基礎や応用分野における広く使われる一般的なアルゴリズムを紹介します。日本語版では付録として高柳慎一氏と牧山幸史氏による「SparkRについて」と千葉立寛氏、小野寺民也氏による「SparkのJVM、システムレベルのチューニングによる高速化」を掲載。高度なデータ解析を習得したいデータサイエンティスト必携の一冊です。目次序文訳者まえがきはじめに 1章　ビッグデータの分析 1.1　データサイエンスの挑

mooonymann 2016/01/08

リンク

Spark and YARN - Qiita

SparkとYARNについて書きます。テーマ的にインフラストラクチャについての話が多くなると思います。 SparkとHadoopの関係性 SparkはHadoopクラスタへの依存はしていない。(ただし、ややこしいのだがHDFSやYARNのクライアントライブラリへの依存はある)なのでHadoopなしでも動かすことができる。しかしそれでもHadoopと一緒に動作させることが多いのは以下の理由による。クラスタマネージャとしてのYARN Sparkはアプリケーション（厳密にはSparkアプリケーション）ごとに下記のようなクラスタが構築される。Driver Programと呼ばれる、SparkContextオブジェクトを持ち、アプリケーションコードの主要部分を実行するアプリケーションのマスタコンポーネントと、RDDに対するオペレーションを実行するExecutor群。そして、Driver Progr

mooonymann 2015/12/25

リンク

ことり隊入荷情報をSparkで分析してTableauで可視化する

この記事はApache Spark Advent Calendar 2015 22日目の記事です。完成したTableauダッシュボード。ことり隊というのはこれ↓のことです。ゲームセンターにあるUFOキャッチャーのプライズです。ゲームセンターにもいろいろ特徴がありまして、ことり隊が置いてあるゲームセンターとそうでないゲームセンターがあります。ゲームセンターをしらみつぶしに回ってことり隊を探すのも大変なので、Twitterを利用してことり隊の入荷情報をキャッチすることにしました。 1. ゲームセンターのtwitterアカウントまずは東京都内のゲームセンターをリストアップしてtwitterアカウントを探します。ゲームセンターのリストは全国ゲーセン地図Wikiから取得しました。ゲームセンターの名前からtwitterアカウントを探しました(※ここは手動(；´∀｀)です)。 2. ゲ

mooonymann 2015/12/23

“Apache Zeppelin”

Spark
spark

リンク

「Apache Zeppelin」のインストール方法まとめ - Qiita

次世代データ分析基盤としてApache Sparkが非常に注目されていますが、データ分析の重要な要素としてデータの可視化（Visualization）が挙げられます。 PythonやRではその辺のツールも充実しています。（Matplotlib, ggplot etc...) さらに、インタラクティブ環境下でコード実行したり、グラフを描画することが可能なiPython NotebookやRStudioなどは分析者にとって非常に便利です。 Apache SparkをiPython Notebookのような環境で動作させるソフトウェアとして、現在Databricksが「Databricks Cloud」を開発しています。しかし、現在一部のユーザにしか公開されていないため、誰でも気軽に使える環境にはなっていません。そこで、Databricks Cloudと同じような環境を提供してくれる「Apac

mooonymann 2015/12/23

リンク

Spark を使うにあたり Google Cloud Dataproc を利用する５つのメリットと注意点 - Qiita

はじめに iQONでは、アイテムのレコメンドといった大規模データの計算が必要な際には、Spark の MLlib という機械学習のライブラリを使っていますが、その際に Google Cloud Platform (GCP) のマネージド Hadoop & Spark サービスである Dataproc で計算を行っています。本記事では、実際に業務で使ってみた上で、Dataproc にどのような特徴があり、他の類似サービスと比べてどのようなメリットがあるか、また利用する際にどのような点に気をつけるべきか、といった点について説明したいと思います。 Dataproc とは？ Dataprocは、Hadoop & Saprk のマネージドサービスです。類似サービスとしては、AWS の Elastic MapReduce (EMR) や Azure の HD Insight がありますが、それらの

mooonymann 2015/12/12

リンク

株式会社D2C｜統合マーケティングパートナー

D2Cグループは、認知拡大から販売促進、ロイヤルユーザー化まで、幅広い領域を対象としたソリューションを提供する統合マーケティングパートナーです。あらゆる手段を駆使して「人を動かす、新しい瞬間」をプロデュースすることで、企業の課題を解決に導きます。

mooonymann 2015/12/03

リンク

株式会社D2C｜統合マーケティングパートナー

D2Cグループは、認知拡大から販売促進、ロイヤルユーザー化まで、幅広い領域を対象としたソリューションを提供する統合マーケティングパートナーです。あらゆる手段を駆使して「人を動かす、新しい瞬間」をプロデュースすることで、企業の課題を解決に導きます。

mooonymann 2015/12/03

リンク

1.Spark1.5でSparkStreaming開発 [こと始め編] - Qiita

紹介この投稿は、Advent Calendar 2015 .. NextGen DistributedComputing system をキッカケにして初めています！ Advent Calendar１日目の記事です。方針について Spark、SparkStreamingが初めての方でも順を追っていただければスムーズに理解できるよう書きたいと思います。開発はScalaベースです。Spark処理を書くためにScalaガッツり使いこなせないと分からないわけではないですが、基本的なことは必要かと思います。 Scala基礎を習得するためには下記リンク先を参照することをお勧めいたします。 https://gist.github.com/scova0731/2c405ea55488d804b366 SparkStreamingの紹介 SparkStreamingとは Sparkコアの拡張モジュー

mooonymann 2015/12/01

spark
scala

リンク

Apache Spark の紹介（前半：Sparkのキホン）

第16回 Hadoopソースコードリーディング(2014/05/29) 発表資料『Apache Sparkのご紹介』（前半：Sparkのキホン） NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス土橋昌 (Masaru Dobashi) http://oss.nttdata.co.jp/ 後半はこちら → http://www.slideshare.net/hadoopxnttdata/apache-sparkRead less