タグ

ブックマーク / open-groove.net (3)

  • HiveのThriftサービス覚え書き – OpenGroove

    前回の投稿に絡むネタなのだが、どうもHiveのリモートメタストアとThriftサービスの相関が今一理解できていないので自分用にまとめてみる(ついでに、メタストアサービスとメタストアDBは違うものだということにさっき気づいた)。 以下、HiveにおけるThriftについて「プログラミング Hive」(O’REILLY) 16章より引用(若干表面的な言い回しを変えてある)。 Hiveにはひとつのポートを通じてHiveにアクセスできるようにしてくれるHiveServer(HiveServer2)あるいはHiveThriftと呼ばれるオプションのコンポーネントがある。Thriftを利用すれば、Java以外の多くの言語を使ったクライアントから、リモートにあるHiveへプログラム的にアクセスできるようになる。 CLIはHiveにアクセスする最も一般的な方法だが、CLIはその設計上プログラムから使うのが

  • HiveのメタストアDBとしてMariaDBを使ってみる – OpenGroove

    HiveのメタストアDBとしてMariaDBを使ってイケるのか、というのをやってみた。CentOS7でやりたかったのだがCDHが未対応なので、6で。現状、MariaDBにしなければいけない理由も、MySQLではダメという理由もない。そんな要件も、当面出てこないだろう。ただMySQLの将来が不明瞭な現状を踏まえて、個人的に確認しておきたいだけである。 環境はAmazon EC2上のCentOS6.6。Hadoop擬似分散環境は構築済みで、CDH5.4.4にアップデート。HiveのメタストアDBとしてMySQLが動いていたところから始めた。かなり以前に作ったAMIを元にアップデートを繰り返してゴニョゴニョやっているもんだから、環境が汚れている。一から新しいイメージを作り直そうと思ったが、面倒くささに負けてやめた。が、そのせいでちょっとハマった。詳細は後述。 では、MySQLをアンインストールし

  • Hiveのメタストアについておさらい – OpenGroove

    Hiveのメタストアは、何かにつけて、ハマる。分かっているつもりで分かってなかったことも、未だにある。このブログ内や他の場所のあちこちに気づいたことを書いているが、散乱しているのでここでまとめてみる。 以下、過去記事からの引用。 メタストアサービスについて Hiveではメタストアサービスと呼ばれるものを利用する。メタストアサービスはテーブル定義、ここでは「テーブルとHDFS上のデータの対応情報」を管理する。メタストア自体はRDBMSを使用してその情報を管理している。メタストアサービスは以下の3種類があり、要件によって使い分ける。 組み込みメタストア もっとも手軽に利用できる形態。HiveにはJavaで実装されたDerbyというDBが組み込まれており、そのDBをメタストアリポジトリとして利用する。hiveコマンド起動によりDerbyも起動する。同時に一人のユーザーしかHiveを利用できない、

  • 1