タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

HBaseに関するdmizuno55のブックマーク (2)

  • 改めてHive & HBase連携 – OpenGroove

    (追記)若干認識違いな部分があったので修正しました。 前回投稿で書いたように O’REILLYの「Hiveプログラミング」は、日語による包括的なHiveノウハウリソースとして最適と言えそう。Hive & HBase連携部分なども少ないながら17章 ストレージハンドラとNoSQL にてページが割かれているので、気になった点を引用させてもらう。 HiveのクエリをNoSQLデータベースに対して実行する場合、NoSQLシステムのオーバーヘッドがあるために、そのパフォーマンスはHDFS上の通常のHiveやMapReduceのジョブより低いものになります。その理由の中には、通常のHDFSへのアクセスが完全なシーケンシャルI/Oであるのに対して、サーバーへのソケット接続や、下位層の複数のファイルのマージといった処理があるということがあります。 (略) システム全体の中で、NoSQLデータベースをHa

  • MySQL to HBase Heterogeneous Replication【実装編】 | 株式会社サイバーエージェント

    業務経歴: アメーバピグ開発運用などを経て、2010年よりHadoop/Hiveを用いたログ解析基盤開発・運用に従事。2011年よりAmeba Technology Laboratory研究室長。 概要 Hadoopを用いたログ集計基盤は次第に整備されつつあるが,集計にはユーザなどのいわゆるマスタデータ(会員登録情報,プロフィール情報など)とのJOINが必要とされることが多い. しかしながら,(特にAmebaサービスでは)マスタデータはMySQLに保存されていることが多く,さらにHDFSには追記処理しかできない(特定行の削除などができない)ためマスタデータをMySQLからダンプコマンドにより全データ取得し,HDFS上のファイルを置き換えるという非効率な処理に陥りがちである. そこで,MySQLからHadoop(HDFS)をベースとしながら,ランダムリード/ライトが可能なHBaseにデータ

    MySQL to HBase Heterogeneous Replication【実装編】 | 株式会社サイバーエージェント
  • 1