[B! Hive] nishikawasasakiのブックマーク

blog.katsuma.tv

前回、JavaScriptでMap Reduceのコードが書けるHadoop Streamingについて紹介しました。標準入出力さえサポートされてあれば、任意のコードでMap Reduuceの処理が書ける、というものでしたが、エンジニアはそもそも面倒くさがり。コードも書くのも面倒です。と、いうわけで、今回はもうコードすら書かずにSQLライクでMap ReduceできるHiveというプロダクトについて、まとめたいと思います。 Hive Hiveとは、簡単に言うとHadoop上で動作するRDBのようなものです。 HDFSなどの分散ファイルシステム上に存在するデータに対して、HiveQLというSQLライクな言語で操作できます。で、面白いのがHiveQLの操作は基本的にMap Reduceのラッパーになっていること。要するに、SELECT文実行すると裏でMap&Reduceのタスクが走り出

nishikawasasaki 2013/05/30

Hive

リンク

Interactive Reading Community (Ver.6)

nishikawasasaki 2013/05/30

Hive

リンク

how to calculate median in Hive

nishikawasasaki 2013/03/15

Hive
Hadoop

リンク

HiveでMySQLを使ったLocal Metastoreの設定方法 - wyukawa's diary

情報はあるけど一応めもっとく Cloudera版のHive 0.7.1をインストールするとデフォルトではEmbeded Metastoreになっている。この状態だとHiveのメタデータの管理がDerbyという組み込みDBを使っているので、単一プロセスからしか接続できない。なので複数のプロセスから扱おうとすると以下のようなエラーが出る。 hive> show tables; FAILED: Error in metadata: javax.jdo.JDOFatalDataStoreException: Failed to start database '/var/lib/hive/metastore/metastore_db', see the next exception for details. NestedThrowables: java.sql.SQLException: Fai

nishikawasasaki 2013/03/15

Hadoop
Hive

リンク

mixi の解析基盤とApache Hive での JSON パーサの活用の紹介 - mixi engineer blog

こんにちは．最近ピクルス作りで精神統一をしている，たんぽぽグループ解析チームの石川有です．このブログではお馴染みのたんぽぽグループですが，"No More 「刺身の上にタンポポをのせる仕事」 - 単純作業の繰り返しで開発者の時間を浪費しないために。"というミッションを持っています．その中で解析チームは，データ解析基盤の構築，データマイニング，データ解析の社内コンサルティングを行ない技術からの改善を担当しています．今回の記事では，mixi における解析基盤について簡単に触れたあと，その基盤における「刺身の上にタンポポをのせる仕事」をどう減らすかの２点について書きます． mixi の解析基盤まずは解析環境について，簡単にお話します．2012-08 現在 mixi では，主な解析用のツールとしては，Apache Hadoop, Hive を利用しています．またあわせて，自分など一部の人は，

nishikawasasaki 2013/03/14

Hadoop
Hive

リンク

Hiveで整形されていないログを集計する方法

タムタムです。Hadoop アドベントカレンダーの12/24分を書かせていただきます。それと、時々ログ解析飲み会というものをやっているという噂があるのですが、わたしも混ぜてください＞＜さて、まずはじめに・・。ログが整形されているなんて都市伝説です。自分が作るアプリは最初からログ設計をして整形して出力しているのですが、世の中そんなものばかりではありません。Hiveで集計するためにはある程度書式が整っていないとスマートに処理できません。適当なスクリプトで処理するのも手ですが、もともと分散しないと処理できないほどの量なのに、それを分散環境で処理しないとか無いと思います・・。となると、スクリプトを書いてHadoop Streamingでログを処理すればいいよねーとなるわけです。が、用途はある程度限られてしまいますが実はHiveでも出来ます。例えば、以下のようなログがあるとします。

nishikawasasaki 2013/03/14

Hadoop
Hive

リンク

HiveでJSON形式のログを構造化する

fluentの勉強会に参加したら、まわりがモヒカンばっかりで消毒されそうになったタムタムです。先日のMixi Engineers' Seminar #3でMixiがJSONデータをHiveで集計しているよーという発表をしていて、Fluentのtail + apacheもjsonとしてデータが飛んでいるとの事で、相性は悪くないよねーというわけでサンプルを作ってみました。（スライドを見ていた感じではこんな感じだったはず）まずサンプルデータを用意します。適当に100件ほど作りました。 (nameが名前でexam{1|2|3}は何かのテストの点数です） {"name" : "Irma", "exam1": 58, "exam2": 73, "exam3":85} {"name" : "Dorothy", "exam1": 50, "exam2": 39, "exam3":11} {"name

nishikawasasaki 2013/03/14

Hadoop
Hive

リンク

はてなブックマーク

タグ

関連タグで絞り込む (1)

Hiveに関するnishikawasasakiのブックマーク (7)

お知らせ

月間はてなブックマーク数ランキング（2024年7月）

今週のはてなブックマーク数ランキング（2024年7月第4週）

今週のはてなブックマーク数ランキング（2024年7月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス