Sparkを実行できるWebUIをいくつか比較してみました。 対象としたのは下記の3つです。 Apache Zeppelin pyspark + Jupyter(iPython Notebook) spark-notebook Spark付属のSpark Web Interfaceは実行状況のモニタリングやRDDの状態が可視化されていて非常に便利なものなのですが、上記とは毛色が異なるため今回比較対象に入れていません。 Hueのnotebookやdatabricks cloudに関してはまた今度。。。 まずはそれぞれの概要を少しご紹介します。 Apache Zeppelin Apacheが作っているnotebook形式のWeb UIで、対話型実行ができます。 この記事を書いている時点での最新バージョンは0.6.0です。 Scala, Python, SQL(Spark), SQL(Hive)
はじめに 「さくらのクラウドでHadoop/Spark/Asakusa環境を構築する」第2回目です。 前回は、さくらのクラウド環境にHadoopディストリビューション Hortonworks Data Platform (HDP) を使ってHadoopクラスタを構築しました。 今回は、Apache Spark を紹介します。 前回構築したHadoopクラスタにSparkをセットアップして、HadoopとSparkを連携するための設定を行います。 SparkがHadoopと連携して動作することを確認できたら、いくつかのSparkアプリケーションを実行してみます。 また、Sparkが提供するSQL実行エンジン Spark SQLや、 ストリーム処理エンジン Spark Streaming 、 Sparkが提供する管理画面などを紹介します。 インストール構成 これからHadoopクラスタにSpa
対象 Apache Sparkをやるにはどれから始めたらいいかわからない方。 Apache Spark関連のリンクをまとめます。主に英語がおおいです。Edxのコースはとてもお勧めです。動画で説明があり、Pythonで実際にコードをかいて学んでいくのでとても理解しやすいです。 I will keep you updated! なにか他にいいリソースありましたらコメントください。 本家 http://spark.apache.org/ Quick start https://spark.apache.org/docs/latest/quick-start.html Overview Stanford CS347 http://www.cs.berkeley.edu/~rxin/talks/2015-05-18_cs347-stanford.pdf Compile and Run Example
1. Copyright © 2015 NTT DATA CorporationCopyright © 2015 NTT DATA Corporation 2015年6月23日 株式会社NTTデータ 基盤システム事業本部 OSSプロフェッショナルサービス 猿田 浩輔/土橋 昌 メキメキ開発の進む Apache Sparkのいまとこれから OSS Professional Service Team Spark Casual Talk #1 (2015/06/23) 発表資料 2. 2Copyright © 2015 NTT DATA Corporation 自己紹介 猿 田 浩 輔 ソフトウェア開発。システムインフラ技 術者。 6年ほどHadoopに関する業務に従事。 近年はSpark関連の取り組みが多い。 2015年6月Sparkコミッタに就任 出版物に「Haodop徹底入門(初版、 第二
SKS rep @repeatedly Spark MLlibユーザにHivemallとかvowalみたいな他のライブラリと比べてどういう所が良いのか聞いてみたい所… #spark_casual
Apache Sparkがスループットとレイテンシを両立させた仕組みと最新動向を、SparkコミッタとなったNTTデータ猿田氏に聞いた(前編) 最近ビッグデータ処理基盤として急速に注目を集めているのが「Apache Spark」です。 Sparkは、Hadoopと比較されることも多く、Hadoopよりも高速かつ高機能な分散処理基盤だと言われています。Sparkとはいったい、どのようなソフトウェアなのでしょうか? 今年6月にSparkのコミッタに就任したNTTデータの猿田浩輔氏に聞きました。 以下は猿田氏から伺ったSparkの紹介をまとめたものです。また、後編では猿田氏がコミッタになった経緯などもインタビューしました。 Hadoopでは複雑な処理に時間がかかる Sparkとはなにかの前に、まずはHadoopの話から始めさせてください。 Hadoopとは、ざっくり言うと分散処理フレームワーク「
2015年8月1日 ビックデータオールスターズで発表したSparkStreaming x Twitter によるリコメンドサービスの話です。Read less
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く