[B! Spark] rokujyouhitomaのブックマーク

http://tink.elliptium.net/2014/09/27/starting_with_apache_spark.html

rokujyouhitoma 2019/04/22

リンク

JupyterからSpark clusterを操作できるlivy + sparkmagicを試してみた - once upon a time,

Spark Summit 2016でもトークがあったSparkのREST serverであるlivyですが、MicrosoftがHDInsight上のSpark clusterとJupyterをlivyを使って繋げられるようにしたと聞いて、早速試してみました。 Jupyterって何？という方は簡単に言うと、ブラウザで各種言語のREPLが動くものと思ってもらえばいいです。詳細は過去に書いた以下の記事を読んでみてください。 techlife.cookpad.com livyとは livyはSpark clusterをコントロールするためのREST Serverです。 Microsoftはこれとjupyter notebookのsparkmagicを使ってHDInsightとjupyterをつなげるようにしているそうです。 MSの取り組みはSpark Summit 2016のトークがわかりやす

rokujyouhitoma 2016/07/12

リンク

Recent performance improvements in Apache Spark: SQL, Python, DataFrames, and More

Unified governance for all data, analytics and AI assets

rokujyouhitoma 2015/04/30

リンク

大規模並列処理：PythonとSparkの甘酸っぱい関係～PyData.Tokyo Meetup #3イベントレポート

ロゴステッカーの作成計画も進行中です。近々イベント会場でお配りできるかも知れません。チュートリアルおよび次回勉強会のお知らせこの度PyData.Tokyo初の試みとして、初心者向けのチュートリアルを3月7日（土曜日）に行います。また、次回勉強会はデータ解析に関する「高速化」をテーマにし、4月3日（金曜日）に開催します。詳細は記事の最後をご覧下さい。 Sparkによる分散処理入門 PyData.Tokyo オーガナイザーのシバタアキラ（@madyagi）です。ビッグデータを処理するための基盤としてHadoopは既にデファクトスタンダードになりつつあります。一方で、データ処理に対するさらなる高速化と安定化に向けて、新しい技術が日々生まれており、様々な技術が競争し、淘汰されています。そんな中、Apache Spark（以下Spark）は、新しい分析基盤として昨年あたりから急激にユーザーを増