[B! spark] [2ページ] rsakamotのブックマーク

Resilient Distributed Datasetsに関する論文を読んでみます（１章 - 夢とガラクタの集積場

こんにちは。前回、前々回でApache Spark、Spark Streamingの概要がわかりました。ですが、内部で使用している共有分散メモリ機構であるResilient Distributed Datasets(RDDs)が鍵となる割に概要しか資料からはわからなかったため、論文を読むことでもう一段階理解を深めてみます。読んだ論文は以下です。「Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing」（http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf）あと、内容が理解できればいいので、全文訳というわけではありません。 Abstract 本論文において、プログラマが大規模クラスタ

rsakamot 2016/07/04

spark

リンク

Apache Spark 2.0: A Deep Dive Into Structured Streaming - by Tathagata Das

rsakamot 2016/06/24

spark

リンク

Structuring Apache Spark 2.0: SQL, DataFrames, Datasets And Streaming - by Michael Armbrust

Apache Spark 2.0 has laid the foundation for many new features and functionality. Its main three themes—easier, faster, and smarter—are pervasive in its unified and simplified high-level APIs for Structured data. In this introductory part lecture and part hands-on workshop you’ll learn how to apply some of these new APIs using Databricks Community Edition. In particular, we will cover the followin

rsakamot 2016/06/24

spark

リンク

Airstream: Spark Streaming At Airbnb

rsakamot 2016/06/16

spark

リンク

Real-time Recommendations using Spark Comcast Labs

JOIN THE GLOBAL DATA COMMUNITY FOR 500+ SESSIONS AND EXPLORE HOW DATA INTELLIGENCE ENABLES EVERY ORGANIZATION TO HARNESS THE POWER OF GENAI ON THEIR OWN DATA.

rsakamot 2016/06/16

spark

リンク

Spark 2.0 What's Next （Hadoop / Spark Conference Japan 2016 キーノート講演資料）

rsakamot 2016/05/31

spark

リンク

Hive on Spark を活用した高速データ分析 - Hadoop / Spark Conference Japan 2016

現在、DMM.comでは、1日あたり1億レコード以上の行動ログを中心に、各サービスのコンテンツ情報や、地域情報のようなオープンデータを収集し、データドリブンマーケティングやマーケティングオートメーションに活用しています。しかし、データの規模が増大し、その用途が多様化するにともなって、データ処理のレイテンシが課題となってきました。本発表では、既存のデータ処理に用いられていたHiveの処理をHive on Sparkに置き換えることで、1日あたりのバッチ処理の時間を3分の1まで削減することができた事例を紹介し、Hive on Sparkの導入方法やメリットを具体的に解説します。 Hadoop / Spark Conference Japan 2016 http://www.eventbrite.com/e/hadoop-spark-conference-japan-2016-tickets-2

rsakamot 2016/05/31

hive
spark

リンク

Skills Network

IBM Skills NetworkSome of the world's most successful companies trust Skills Network to upskill their employees. Calling all creators, bloggers, authors and educatorsSkills Network is a community of top-notch content creators, authors, educators who are helping the world learn cutting edge techno logies, one project at a time. Just bring your skills. We give you the tools to create and teach. Get n

rsakamot 2016/05/30

spark

リンク

YARN queue ACL for Spark - Qiita

昨日書いたSpark and YARNで、下記のようなことを書いたので少し検証してみた。 YARNで強化するSparkのセキュリティ対策 Spark自体が提供するセキュリティ対策のほかに、YARNのCapacity Schedulerを使うことによって、RMに対してアプリケーション登録時に認証をかけることができるようになる。ちょっと時間切れになってきたので、詳細はまたあとで追記。 YARNのスケジューラが持つキュー YARNのCapacity SchedulerとFair Schedulerはアプリケーションの登録を受け付けるキューをもっており、これらはUNIXユーザー/グループベースのACLを掛けることができる。このことによりSparkアプリケーションを実行するユーザーごとにアプリケーションの登録可否を制御できる。Capacity Schedulerの場合、複数のキューを持つことができる

rsakamot 2016/05/13

リンク

Spark／MapReduceの機械学習ライブラリ比較検証

2015/5/21 Hadoopソースコードリーディング第19回におけるリクルートテクノロジーズ堀越による発表資料になりますRead less

rsakamot 2016/05/10

spark
hadoop

リンク

Spark を使うにあたり Google Cloud Dataproc を利用する５つのメリットと注意点 - Qiita

はじめに iQONでは、アイテムのレコメンドといった大規模データの計算が必要な際には、Spark の MLlib という機械学習のライブラリを使っていますが、その際に Google Cloud Platform (GCP) のマネージド Hadoop & Spark サービスである Dataproc で計算を行っています。本記事では、実際に業務で使ってみた上で、Dataproc にどのような特徴があり、他の類似サービスと比べてどのようなメリットがあるか、また利用する際にどのような点に気をつけるべきか、といった点について説明したいと思います。 Dataproc とは？ Dataprocは、Hadoop & Saprk のマネージドサービスです。類似サービスとしては、AWS の Elastic MapReduce (EMR) や Azure の HD Insight がありますが、それらの

rsakamot 2016/04/20

spark
hadoop

リンク

http://eecs.berkeley.edu/Pubs/TechRpts/2014/EECS-2014-12.pdf

rsakamot 2016/04/14

spark

リンク

GetStarted_EC2

rsakamot 2016/03/01

リンク

https://people.eecs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf

rsakamot 2016/03/01

spark
hadoop

リンク

Hive on Spark の設計指針を読んでみた

大規模データ活用向けストレージレイヤソフトのこれまでとこれから（NTTデータテクノロジーカンファレンス 2019 講演資料、2019/09/05）

rsakamot 2016/02/25

リンク

CDH 5.4でHive on Sparkを試す

Hive on Spark (on CDH5.4) ※Hive on Sparkはテクノロジープレビュー扱いです。現時点ではサポート対象外なのでご注意を。 CDH5.4に含まれているHiveはHive 1.1です。このバージョンのHiveから、Hiveの実行エンジンとしてSparkが利用できるようになりました。（Hive on Spark [1][2]） [1] https://cwiki.apache.org/confluence/display/Hive/Hive+on+Spark%3A+Getting+Started [2] https://issues.apache.org/jira/browse/HIVE-7292 ドキュメントも発見したので早速試してみます。 http://www.cloudera.com/content/cloudera/en/documentation/co

rsakamot 2016/02/25

リンク

Apache Spark チュートリアル

2015-4-28に東北大学乾・岡崎研究室でおこなったチュートリアルの資料です。研究室にはHadoopクラスタ（CDH5.3）があります。実験や実験の前処理といったタスクでそのクラスタを利用するためのチュートリアル、という前提です。 (追記)PMIの計算はもっと実行効率がいい手順があります。という説明を入れ忘れてました。 (追記)PMI計算でIntと書いてある部分は全部Longの間違いでした。

rsakamot 2016/02/19

spark
hadoop

リンク

「初めてのSpark」刊行記念 Spark Meetup 2015 レポート | DevelopersIO

ほぼ二ヶ月前になりますが、先日オライリー様から刊行された初めてのSparkの出版記念イベントがありました。私も当日参加し、公開するまでもないと思い死蔵していたメモがありましたが、最近先ほどの本を読み始め自分の中でのSpark熱が盛り上がっているため、公開することにしました。プログラム「初めてのSpark」刊行のご挨拶 Sky株式会社玉川竜司氏 Spark活用事例とロードマップ(仮) Cloudera Inc.　Jairam Ranganathan氏 Sparkコミュニティに飛び込もう! 株式会社NTTデータ　猿田浩輔氏初めてのSparkStreaming 〜Kafka+SparkStreamingの紹介〜株式会社DMM.comラボ　田中裕一氏 Spark、AMPLab、および周辺のビッグデータ基盤日本電気株式会社中台慎二氏 MLlib, mahoutの協調フィルタの比較株