タグ

2020年9月15日のブックマーク (8件)

  • Apache Spark で分散処理入門 - Qiita

    Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 2.0.0 /_/ 2016年7月末にApache Spark 2.0.0がリリースされ、始めてみたので色々メモ メモなのでご容赦ください🙇 また、この記事中にサンプルで載せているコードはjavaがメインですがscalapythonの方がすっきりかけている気がじます。 これからも随時編集していきます Apache Spark とは 上の画像はhttps://spark.apache.orgから、場合によってはHadoopのMapReduce100倍速いらしいです、強い、Spark Sparkは巨大なデータに対して高速に分散処理を行うオープンソースのフレームワーク。 (Java Magazin

    Apache Spark で分散処理入門 - Qiita
  • @IT:Javaのヒープ・メモリ管理の仕組み

    GC前、Eden領域の消費サイズは「1834928」バイトであった GC後、Eden領域の消費サイズは「0」バイトであった(つまり全オブジェクトが移動もしくは破棄された) GC後、Eden領域のサイズは「3670016」バイトであった 「survivor」とは、From領域とTo領域両方を指します。ここでもし、上記ログのようにGC後のFrom/To領域の消費サイズが「0」となった場合は注意が必要です。これはすなわち、オブジェクトがFrom領域とTo領域の間を行き来せず、すぐにOLD領域に移動してしまっていることを表します。このような状況では、OLD領域は短命なオブジェクトですぐに埋まり、Full GCが頻発してしまいます。これはオーバーフローと呼ばれ、MaxTenuringThreshold値の低い状態で一連のGCが発生している状況を見つけることで検出できます。 NEW領域のサイズ調節 M

    @IT:Javaのヒープ・メモリ管理の仕組み
  • Sparkの内部処理を理解する - Qiita

    この記事はOpt Technologies Advent Calendar 2017の17日目です。 概要 11日の記事(Spark on EMRの基礎をおさらいする)にてSpark on EMRの構成はおさらいしましたが、トラブルシュートするためにはSparkの内部処理についても理解しておく必要がある、ということでまとめます。また記事は上記記事を読んでいる方向けの内容となります。 (記事は社内勉強会にて話した内容に修正を加えたものになります。) Sparkの処理の内部構造 概要 Sparkはコードでそれと意識していなくても分散処理が出来るのが強みですが、内部的には割とややこしいことをしています。具体的には、「どのロジック・オブジェクトがどこで実行されているか。またそのデータはどこから渡ってきているか」です。 RDD Sparkでは扱うデータをRDDと呼ばれるコレクションのような入れ物

    Sparkの内部処理を理解する - Qiita
  • Sparkの性能向上のためのパラメータチューニングとバッチ処理向けの推奨構成

    はじめに 前回は、Sparkで処理を実行したときのボトルネック箇所と、その対策について解説しました。今回は、「検証のシナリオではどのようなクラスタ構成が良いか」検証した結果を解説します。 Spark2.0のパラメータチューニング 最適なクラスタ構成を検討するにあたり、今回はSparkの(設定ファイルspark-defaults.confに記述できる)パラメータのうちいくつかをチューニングします。条件は次の通りです。 Sparkのバージョンは2.0 処理対象のデータは365日分の消費電力量データ Sparkのシャッフルファイル出力先ディスクはHDFSと共用(前回解説したもの) パーティション数のチューニング Sparkはデータを「パーティション」という単位で並列処理します。処理の流れは以下の通りです(図1)。今回はシャッフル処理後の適切なパーティション数を検証します。 (1)データソースか

    Sparkの性能向上のためのパラメータチューニングとバッチ処理向けの推奨構成
  • Spark 2.0を活用した配電設備の負荷集計システムの性能検証

    はじめに ビッグデータの処理基盤として知られる「Apache Hadoop」(以降、Hadoop)のエコシステムを構成するOSSの1つ「Apache Spark」(以降、Spark)は、2016年7月にメジャーバージョン2.0がリリースされました。その大きな変更点はSQL処理APIの改善とパフォーマンス(処理性能)向上で、特に処理性能は「最大10倍に向上した」とリリースノートに記載されています。 そこで連載では、最新版のSpark 2.0と1.x系の最新バージョンSpark 1.6.2(以降、Spark1.6)の性能を比較し、実際のシステムでどの程度活用できるのかを検証していきます。 おさらい:HadoopとSparkとは何か 連載の検証で取り上げる「Spark SQL」は、Sparkを構成するコンポーネントの1つです。またSparkもHadoopのエコシステムを構成するOSSのひとつ

    Spark 2.0を活用した配電設備の負荷集計システムの性能検証
  • Real-time Recommendations using Spark Comcast Labs

    Databricks is the Data and AI company. More than 10,000 organizations worldwide — including Block, Comcast, Conde Nast, Rivian, and Shell, and over 60% of th...

    Real-time Recommendations using Spark Comcast Labs
  • Configuration - Spark 2.4.0 Documentation

  • Spark Architecture

    Edit from 2015/12/17: Memory model described in this article is deprecated starting Apache Spark 1.6+, the new memory model is based on UnifiedMemoryManager and described in this article Over the recent time I’ve answered a series of questions related to ApacheSpark architecture on StackOverflow. All of them seem to be caused by the absence of a good general description of the Spark architecture i

    Spark Architecture