tkmotekiのブックマーク - はてなブックマーク

ビッグデータ処理基盤とRDBの連携の必要性およびPostgreSQL FDWの概要
はじめに過去の連載（「ユースケースで徹底検証！ HBaseでIoT時代のビッグデータ管理機能を試す」）で説明したように、RDBとNoSQLやHadoop上のデータの扱いは、データ構造やアクセス方法、トランザクション有無など大きく異なるため、用途ごとに使い分ける必要があります。しかし、使い分けるという事は複数のデータ格納場所ができるという事であり、実際の業務システムで使うにはそれぞれの間のデータ連携を考える必要があります。本連載では、データ連携の方法を調査・検証した結果と、そこから得られたデータ連携のノウハウを紹介します。今回は連携の必要性と懸念点、連携先となるRDBについて説明します。「はじめに」でご説明したように、トレース情報やライフログ、センサー情報等のIoTデータは、画像や音声、ログ等の構造化されていない多種多様（Variety）、かつ、大量のデータ（Volume）が、高頻
tkmoteki 2018/05/27
FDW、これ本番で使う人いるのかな、、、ビッグデータ処理基盤とRDBの連携の必要性およびPostgreSQL FDWの概要 | Think IT（シンクイット）
リンク
Sparkの性能向上のためのパラメータチューニングとバッチ処理向けの推奨構成
はじめに前回は、Sparkで処理を実行したときのボトルネック箇所と、その対策について解説しました。今回は、「本検証のシナリオではどのようなクラスタ構成が良いか」検証した結果を解説します。 Spark2.0のパラメータチューニング最適なクラスタ構成を検討するにあたり、今回はSparkの（設定ファイルspark-defaults.confに記述できる）パラメータのうちいくつかをチューニングします。条件は次の通りです。 Sparkのバージョンは2.0 処理対象のデータは365日分の消費電力量データ Sparkのシャッフルファイル出力先ディスクはHDFSと共用（前回解説したもの）パーティション数のチューニング Sparkはデータを「パーティション」という単位で並列処理します。処理の流れは以下の通りです（図1）。今回はシャッフル処理後の適切なパーティション数を検証します。 (1)データソースか
tkmoteki 2017/01/28
後で読む Sparkの性能向上のためのパラメータチューニングとバッチ処理向けの推奨構成 via @nuzzel
リンク
1

はてなブックマーク

タグ

ブックマーク / thinkit.co.jp (2)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / thinkit.co.jp (2)

ビッグデータ処理基盤とRDBの連携の必要性およびPostgreSQL FDWの概要

Sparkの性能向上のためのパラメータチューニングとバッチ処理向けの推奨構成

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第1週）

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス