タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

Hiveに関するnishikawasasakiのブックマーク (7)

  • blog.katsuma.tv

    前回、JavaScriptMap Reduceのコードが書けるHadoop Streamingについて紹介しました。 標準入出力さえサポートされてあれば、任意のコードでMap Reduuceの処理が書ける、というものでしたが、エンジニアはそもそも面倒くさがり。コードも書くのも面倒です。 と、いうわけで、今回はもうコードすら書かずにSQLライクでMap ReduceできるHiveというプロダクトについて、まとめたいと思います。 Hive Hiveとは、簡単に言うとHadoop上で動作するRDBのようなものです。 HDFSなどの分散ファイルシステム上に存在するデータに対して、HiveQLというSQLライクな言語で操作できます。 で、面白いのがHiveQLの操作は基的にMap Reduceのラッパーになっていること。 要するに、SELECT文実行すると裏でMap&Reduceのタスクが走り出

  • Interactive Reading Community (Ver.6)

    Interactive Reading Community (Ver.6)
  • how to calculate median in Hive

  • HiveでMySQLを使ったLocal Metastoreの設定方法 - wyukawa's diary

    情報はあるけど一応めもっとく Cloudera版のHive 0.7.1をインストールするとデフォルトではEmbeded Metastoreになっている。 この状態だとHiveのメタデータの管理がDerbyという組み込みDBを使っているので、単一プロセスからしか接続できない。 なので複数のプロセスから扱おうとすると以下のようなエラーが出る。 hive> show tables; FAILED: Error in metadata: javax.jdo.JDOFatalDataStoreException: Failed to start database '/var/lib/hive/metastore/metastore_db', see the next exception for details. NestedThrowables: java.sql.SQLException: Fai

    HiveでMySQLを使ったLocal Metastoreの設定方法 - wyukawa's diary
  • mixi の解析基盤とApache Hive での JSON パーサの活用の紹介 - mixi engineer blog

    こんにちは.最近ピクルス作りで精神統一をしている,たんぽぽグループ解析チームの石川有です. このブログではお馴染みのたんぽぽグループですが,"No More 「刺身の上にタンポポをのせる仕事」 - 単純作業の繰り返しで開発者の時間を浪費しないために。"というミッションを持っています.その中で解析チームは,データ解析基盤の構築,データマイニング,データ解析の社内コンサルティングを行ない技術からの改善を担当しています. 今回の記事では,mixi における解析基盤について簡単に触れたあと,その基盤における「刺身の上にタンポポをのせる仕事」をどう減らすかの2点について書きます. mixi の解析基盤 まずは解析環境について,簡単にお話します.2012-08 現在 mixi では,主な解析用のツールとしては,Apache Hadoop, Hive を利用しています.またあわせて,自分など一部の人は,

    mixi の解析基盤とApache Hive での JSON パーサの活用の紹介 - mixi engineer blog
  • Hiveで整形されていないログを集計する方法

    タムタムです。Hadoop アドベントカレンダーの12/24分 を書かせていただきます。 それと、時々ログ解析飲み会というものをやっているという噂があるのですが、わたしも混ぜてください>< さて、まずはじめに・・。 ログが整形されているなんて都市伝説です。 自分が作るアプリは最初からログ設計をして整形して出力しているのですが、世の中そんなものばかりではありません。Hiveで集計するためにはある程度書式が整っていないとスマートに処理できません。 適当なスクリプトで処理するのも手ですが、もともと分散しないと処理できないほどの量なのに、それを分散環境で処理しないとか無いと思います・・。 となると、スクリプトを書いてHadoop Streamingでログを処理すればいいよねーとなるわけです。が、用途はある程度限られてしまいますが実はHiveでも出来ます。 例えば、以下のようなログがあるとします。

    Hiveで整形されていないログを集計する方法
  • HiveでJSON形式のログを構造化する

    fluentの勉強会に参加したら、まわりがモヒカンばっかりで消毒されそうになったタムタムです。 先日のMixi Engineers' Seminar #3でMixiがJSONデータをHiveで集計しているよーという発表をしていて、Fluentのtail + apacheもjsonとしてデータが飛んでいるとの事で、相性は悪くないよねーというわけでサンプルを作ってみました。(スライドを見ていた感じではこんな感じだったはず) まずサンプルデータを用意します。 適当に100件ほど作りました。 (nameが名前でexam{1|2|3}は何かのテストの点数です) {"name" : "Irma", "exam1": 58, "exam2": 73, "exam3":85} {"name" : "Dorothy", "exam1": 50, "exam2": 39, "exam3":11} {"name

    HiveでJSON形式のログを構造化する
  • 1