ブックマーク / thinkit.co.jp (2)

  • ビッグデータ処理基盤とRDBの連携の必要性およびPostgreSQL FDWの概要

    はじめに 過去の連載(「ユースケースで徹底検証! HBaseでIoT時代のビッグデータ管理機能を試す」)で説明したように、RDBとNoSQLやHadoop上のデータの扱いは、データ構造やアクセス方法、トランザクション有無など大きく異なるため、用途ごとに使い分ける必要があります。しかし、使い分けるという事は複数のデータ格納場所ができるという事であり、実際の業務システムで使うにはそれぞれの間のデータ連携を考える必要があります。 連載では、データ連携の方法を調査・検証した結果と、そこから得られたデータ連携のノウハウを紹介します。 今回は連携の必要性と懸念点、連携先となるRDBについて説明します。 「はじめに」でご説明したように、トレース情報やライフログ、センサー情報等のIoTデータは、画像や音声、ログ等の構造化されていない多種多様(Variety)、 かつ、大量のデータ(Volume)が、高頻

    ビッグデータ処理基盤とRDBの連携の必要性およびPostgreSQL FDWの概要
    tkmoteki
    tkmoteki 2018/05/27
    FDW、これ本番で使う人いるのかな、、、 ビッグデータ処理基盤とRDBの連携の必要性およびPostgreSQL FDWの概要 | Think IT(シンクイット)
  • Sparkの性能向上のためのパラメータチューニングとバッチ処理向けの推奨構成

    はじめに 前回は、Sparkで処理を実行したときのボトルネック箇所と、その対策について解説しました。今回は、「検証のシナリオではどのようなクラスタ構成が良いか」検証した結果を解説します。 Spark2.0のパラメータチューニング 最適なクラスタ構成を検討するにあたり、今回はSparkの(設定ファイルspark-defaults.confに記述できる)パラメータのうちいくつかをチューニングします。条件は次の通りです。 Sparkのバージョンは2.0 処理対象のデータは365日分の消費電力量データ Sparkのシャッフルファイル出力先ディスクはHDFSと共用(前回解説したもの) パーティション数のチューニング Sparkはデータを「パーティション」という単位で並列処理します。処理の流れは以下の通りです(図1)。今回はシャッフル処理後の適切なパーティション数を検証します。 (1)データソースか

    Sparkの性能向上のためのパラメータチューニングとバッチ処理向けの推奨構成
    tkmoteki
    tkmoteki 2017/01/28
    後で読む Sparkの性能向上のためのパラメータチューニングとバッチ処理向けの推奨構成 via @nuzzel
  • 1