yayoi-takaのブックマーク / 2020年9月15日

Apache Spark で分散処理入門 - Qiita

Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 2.0.0 /_/ 2016年7月末にApache Spark 2.0.0がリリースされ、始めてみたので色々メモメモなのでご容赦ください🙇 また、この記事中にサンプルで載せているコードはjavaがメインですがscala、pythonの方がすっきりかけている気がじます。これからも随時編集していきます Apache Spark とは上の画像はhttps://spark.apache.orgから、場合によってはHadoopのMapReduce100倍速いらしいです、強い、Spark Sparkは巨大なデータに対して高速に分散処理を行うオープンソースのフレームワーク。 (Java Magazin

yayoi-taka 2020/09/15

リンク

＠IT：Javaのヒープ・メモリ管理の仕組み

GC前、Eden領域の消費サイズは「1834928」バイトであった GC後、Eden領域の消費サイズは「0」バイトであった（つまり全オブジェクトが移動もしくは破棄された） GC後、Eden領域のサイズは「3670016」バイトであった「survivor」とは、From領域とTo領域両方を指します。ここでもし、上記ログのようにGC後のFrom/To領域の消費サイズが「0」となった場合は注意が必要です。これはすなわち、オブジェクトがFrom領域とTo領域の間を行き来せず、すぐにOLD領域に移動してしまっていることを表します。このような状況では、OLD領域は短命なオブジェクトですぐに埋まり、Full GCが頻発してしまいます。これはオーバーフローと呼ばれ、MaxTenuringThreshold値の低い状態で一連のGCが発生している状況を見つけることで検出できます。 NEW領域のサイズ調節 M

yayoi-taka 2020/09/15

リンク

Sparkの内部処理を理解する - Qiita

この記事はOpt Techno logies Advent Calendar 2017の17日目です。概要 11日の記事（Spark on EMRの基礎をおさらいする）にてSpark on EMRの構成はおさらいしましたが、トラブルシュートするためにはSparkの内部処理についても理解しておく必要がある、ということでまとめます。また本記事は上記記事を読んでいる方向けの内容となります。（本記事は社内勉強会にて話した内容に修正を加えたものになります。） Sparkの処理の内部構造概要 Sparkはコードでそれと意識していなくても分散処理が出来るのが強みですが、内部的には割とややこしいことをしています。具体的には、「どのロジック・オブジェクトがどこで実行されているか。またそのデータはどこから渡ってきているか」です。 RDD Sparkでは扱うデータをRDDと呼ばれるコレクションのような入れ物

yayoi-taka 2020/09/15

リンク

Sparkの性能向上のためのパラメータチューニングとバッチ処理向けの推奨構成

はじめに前回は、Sparkで処理を実行したときのボトルネック箇所と、その対策について解説しました。今回は、「本検証のシナリオではどのようなクラスタ構成が良いか」検証した結果を解説します。 Spark2.0のパラメータチューニング最適なクラスタ構成を検討するにあたり、今回はSparkの（設定ファイルspark-defaults.confに記述できる）パラメータのうちいくつかをチューニングします。条件は次の通りです。 Sparkのバージョンは2.0 処理対象のデータは365日分の消費電力量データ Sparkのシャッフルファイル出力先ディスクはHDFSと共用（前回解説したもの）パーティション数のチューニング Sparkはデータを「パーティション」という単位で並列処理します。処理の流れは以下の通りです（図1）。今回はシャッフル処理後の適切なパーティション数を検証します。 (1)データソースか

yayoi-taka 2020/09/15

リンク

Spark 2.0を活用した配電設備の負荷集計システムの性能検証

はじめにビッグデータの処理基盤として知られる「Apache Hadoop」（以降、Hadoop）のエコシステムを構成するOSSの1つ「Apache Spark」（以降、Spark）は、2016年7月にメジャーバージョン2.0がリリースされました。その大きな変更点はSQL処理APIの改善とパフォーマンス（処理性能）向上で、特に処理性能は「最大10倍に向上した」とリリースノートに記載されています。そこで本連載では、最新版のSpark 2.0と1.x系の最新バージョンSpark 1.6.2（以降、Spark1.6）の性能を比較し、実際のシステムでどの程度活用できるのかを検証していきます。おさらい：HadoopとSparkとは何か本連載の検証で取り上げる「Spark SQL」は、Sparkを構成するコンポーネントの1つです。またSparkもHadoopのエコシステムを構成するOSSのひとつ

yayoi-taka 2020/09/15

リンク

Real-time Recommendations using Spark Comcast Labs

Databricks is the Data and AI company. More than 10,000 organizations worldwide — including Block, Comcast, Conde Nast, Rivian, and Shell, and over 60% of th...

yayoi-taka 2020/09/15

リンク

Configuration - Spark 2.4.0 Documentation

yayoi-taka 2020/09/15

リンク

Spark Architecture

Edit from 2015/12/17: Memory model described in this article is deprecated starting Apache Spark 1.6+, the new memory model is based on UnifiedMemoryManager and described in this article Over the recent time I’ve answered a series of questions related to ApacheSpark architecture on StackOverflow. All of them seem to be caused by the absence of a good general description of the Spark architecture i

yayoi-taka 2020/09/15

リンク

はてなブックマーク

タグ

2020年9月15日のブックマーク (8件)

Apache Spark で分散処理入門 - Qiita

＠IT：Javaのヒープ・メモリ管理の仕組み

Sparkの内部処理を理解する - Qiita

Sparkの性能向上のためのパラメータチューニングとバッチ処理向けの推奨構成

Spark 2.0を活用した配電設備の負荷集計システムの性能検証

Real-time Recommendations using Spark Comcast Labs

Configuration - Spark 2.4.0 Documentation

Spark Architecture

お知らせ

月間はてなブックマーク数ランキング（2024年8月）

今週のはてなブックマーク数ランキング（2024年9月第1週）

今週のはてなブックマーク数ランキング（2024年8月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス