Trino Conference Tokyo 2023 https://techplay.jp/event/907388 #trinodbRead less
Sparkを実行できるWebUIをいくつか比較してみました。 対象としたのは下記の3つです。 Apache Zeppelin pyspark + Jupyter(iPython Notebook) spark-notebook Spark付属のSpark Web Interfaceは実行状況のモニタリングやRDDの状態が可視化されていて非常に便利なものなのですが、上記とは毛色が異なるため今回比較対象に入れていません。 Hueのnotebookやdatabricks cloudに関してはまた今度。。。 まずはそれぞれの概要を少しご紹介します。 Apache Zeppelin Apacheが作っているnotebook形式のWeb UIで、対話型実行ができます。 この記事を書いている時点での最新バージョンは0.6.0です。 Scala, Python, SQL(Spark), SQL(Hive)
この記事は、インテルの SSG STOビッグデータテクノロジーグループのメンバーからDataBricksに寄稿されたブログを翻訳したものです。誤訳がありましたら、@teppei_tosaに御連絡ください。 Sparkは、その優れた性能、シンプルなインターフェイス、および分析や計算のための豊富なライブラリによって、幅広い業界で採用されてきています。ビッグデータエコシステムにおける多くのプロジェクトと同様に、Sparkは、Java仮想マシン(JVM)上で実行されます。Sparkはメモリに大量のデータを格納することにおいて、Javaのメモリ管理とガベージコレクション(GC)に大きく頼っています。また、プロジェクトTungstenなどの新たな取り組みは、将来のバージョンで、メモリ管理のさらなる簡素化と最適化を目指しています。しかし、今日時点でも、JavaのGCオプションとパラメータを理解しているユ
Job Scheduling Overview Scheduling Across Applications Dynamic Resource Allocation Caveats Configuration and Setup Resource Allocation Policy Request Policy Remove Policy Graceful Decommission of Executors Scheduling Within an Application Fair Scheduler Pools Default Behavior of Pools Configuring Pool Properties Scheduling using JDBC Connections Concurrent Jobs in PySpark Overview Spark has severa
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く