[B! spark] ktr89のブックマーク

GitHub - ktrueda/parquet-tools: easy install parquet-tools

ktr89 2020/05/03

リンク

AWS GlueのGetPartition APIはテーブルのパーティション数に応じて遅くなる事の検証 - データが主食

ktr89 2019/09/01

リンク

Writing Spark DataFrame to Hive table through AWS Glue Data Cataloug

ktr89 2019/08/23

Spark

リンク

FullCircl Newsletter | Industry Insights & Resources

ktr89 2019/07/31

spark
Spark

リンク

Apache Livy

Submit Jobs from Anywhere Livy enables programmatic, fault-tolerant, multi-tenant submission of Spark jobs from web/mobile apps (no Spark client needed). So, multiple users can interact with your Spark cluster concurrently and reliably. Use Interactive Scala or Python Livy speaks either Scala or Python, so clients can communicate with your Spark cluster via either language remotely. Also, batch jo

ktr89 2019/03/17

使ってみたい

spark

リンク

INTEL コード & ダウンロード

Using Intel.com Search You can easily search the entire Intel.com site in several ways. Brand Name: Core i9 Document Number: 123456 Code Name: Alder Lake Special Operators: “Ice Lake”, Ice AND Lake, Ice OR Lake, Ice* Quick Links You can also try the quick links below to see results for most popular searches. Product Information Support Drivers & Software

ktr89 2019/01/29

spark

リンク

【募集】Hadoop / Spark Conference Japan 2019 の講演・LT・特別企画 | 日本Hadoopユーザー会

2019年3月14日(木)に『Hadoop / Spark Conference Japan 2019』を東京・きゅりあん（品川区・大井町駅すぐ）で開催します。 Hadoop Conference Japan は2009年より開催しているApache Hadoopに関する総合イベントで、毎回多くの皆様にお越しいただいています。今回は Hadoop / Spark Conference Japanとして開催いたします。本カンファレンスは、Apache Hadoop / Sparkやそれにまつわるエコシステム、並列分散処理、データ処理などに関するオープンソースソフトウェアの技術や事例を一同に集め、多くの方が出会い交流できる場として企画を進めています。参考：前回 Hadoop / Spark Conference Japan 2016のプログラム http://hadoop.apache.j

ktr89 2019/01/24

spark

リンク

[Spark道場]メモリとCPU数の設定を最適化する

皆さんこんにちは、GMOアドマーケティングのS.Rです。大規模分散処理フレームワークである�Sparkですが、皆さんはSparkの設定を最適化したことはありますか？ Sparkは設定次第でPerformanceが10倍以上改良する可能性があります。今回はSparkの重要な設定の一部である、executorメモリ、Core数の設定の最適化例を紹介します。 1. Yarnのモード Sparkが主に使っているResource ManagerはYarnなので、今回はYarnで管理する場合の設定を紹介します。 YarnはClient（図1）や Cluster（図2）の2つのモードがあります。 ClusterモードはSparkのApplication ManagerはMaster Nodeで動作し、ClientモードではApplication ManagerはWorker Nodeで動作します

ktr89 2019/01/21

spark

リンク

Spark 2.0の性能検証の結果とボトルネックの考察

はじめに前回は、Spark 2.0の主な変更点としてSpark 1.6よりも性能が向上し、アプリケーションの実装が容易になったことを解説しました。また、その性能検証のシナリオとして、電力消費量データを集計し可視化するケースを想定することを解説しました。今回は、シナリオに基づいた検証を行うための環境（システム構成、パラメータ）とその検証結果を解説します。システム構成データ分析システムの概要データ分析システムは、図1のように管理画面とデータ分析アプリケーション、データ処理基盤の3つから成ります。設備企画担当者は管理画面を介してドリルダウン分析を行います。予めデータ分析アプリケーションで設備の負荷を集計し、その演算処理を実行するのがデータ処理基盤です。本連載で取り上げるデータ処理基盤にはHadoopおよびSparkを導入しています。ハードウェア構成データ処理基盤は仮想サーバ3台、物理

ktr89 2019/01/21

spark

リンク

Tuning Resource Allocation in Apache Spark

ktr89 2019/01/21

spark

リンク

Spark2.0でジョブのアウトプットを高速にS3に書き出す - About connecting the dots.

2018-03-06 追記: EMRFS S3-optimized Committer が新たにリリース]され，EMR 5.19.0 以降のリリースバージョンで利用可能になりました．また 5.20.0 からはデフォルトの Committer となっています．この　Committer は S3 のマルチパートアップロードを用いることにより，従来の v2 FileOutputCommitter と比べてさらに高速なパフォーマンスを得られるようになっているようです．またマルチパートアップロードを用いることで，従来の v2 の Committer で問題となっていた，テンポラリファイル書き込み & ファイル名リネームに伴う，出力の途中経過が S3 上で見えてしまい，かつジョブが失敗した場合に中途半端な書き込み結果が消されずに残ってしまう，という点も解消されます．全ての結果が書き込まれジョブが成功し

ktr89 2019/01/21

spark

リンク

Apache Sparkの3つのAPI: RDD, DataFrameからDatasetへ - yubessy.hatenablog.com

はじめに Sparkの基本的な仕組みデータコレクションの操作のためのAPI 1. RDD - ネイティブなオブジェクトのコレクション 2. DataFrame - 基本的な型の値からなるテーブル RDD v.s. DataFrame 3. Dataset - RDDとDataFrameの長所を併せ持つコレクション RDD, DataFrameからDatasetへの書き換え DataFrameからDatasetへ RDDからDatasetへおわりにはじめに Livesense Advent Calendar 2016の11日目の記事です。昨今ではAmazon Elastic Mapreduce (EMR)などのマネージドサービスの登場により、分散データ処理基盤を構築・運用するハードルは劇的に下がっています。ソフトウェアの選択肢も広がり、特にApache Sparkはオンメモリ処理を

ktr89 2019/01/21

Spark

リンク

EMRでSpark環境を用意する - goodbyegangsterのブログ

AWSのEMRを利用して、Apach Spark環境を作成してみます。EMRのバージョンは、5.14.0です。 EC2キーペアの用意 EMRで作成されたEC2で利用する、EC2キーペアを用意しておきます。 EMRでクラスタ作成 advanced optionsを選択 AWSコンソールのEMRコンソールに移動して、 Create cluster をクリック。クラスタ作成画面にて、 Go to advanced options をクリック。 EMRで作成するソフトウェア環境の定義 Software Configuration で、HadoopとSparkを選択。今回はPython3系にてPySparkを起動させたいため、software settingsにて、以下のjsonを入力しています。 [ { "Classification": "spark-env", "Configuration

ktr89 2019/01/21

spark

リンク

Youngbin Kim et al. 「Serverless Data Analytics with Flint」 - データが主食

ktr89.hateblo.jp に関連して、サーバーレスでビッグデータ処理しているような事例を調べたら、他にも論文が出てきたので読んでみました。 Hadoopクラスターを自前で用意する時代は終わりを迎えていて、AWS LambdaやGoogle Cloud FunctionなどのFunction as a Serviceでビッグデータ処理をするような事例も近いうちに出てくるかもしれません。 arxiv.org Author AuthorのYoungbin KimはLinkedInによるとカナダのWaterloo大学のTeaching Assistantの方のようです。共著のJimmy Linはhttps://cs.uwaterloo.ca/~jimmylin/によるとWaterloo大学の教授のようです。彼らの課題感 Ecri Jonas et al.「Occupy the Clou