walk77のブックマーク / 2014年2月18日

walk77 id:walk77

2014年2月18日のブックマーク (2件)

HiveでJSON形式のログを構造化する
fluentの勉強会に参加したら、まわりがモヒカンばっかりで消毒されそうになったタムタムです。先日のMixi Engineers' Seminar #3でMixiがJSONデータをHiveで集計しているよーという発表をしていて、Fluentのtail + apacheもjsonとしてデータが飛んでいるとの事で、相性は悪くないよねーというわけでサンプルを作ってみました。（スライドを見ていた感じではこんな感じだったはず）まずサンプルデータを用意します。適当に100件ほど作りました。 (nameが名前でexam{1|2|3}は何かのテストの点数です） {"name" : "Irma", "exam1": 58, "exam2": 73, "exam3":85} {"name" : "Dorothy", "exam1": 50, "exam2": 39, "exam3":11} {"name
walk77 2014/02/18
Hive

JSON
リンク
MySQLからデータをダンプしてHiveにデータをロードするまでの流れ
順番に方法を見ていきます。 MySQLから数百万レコード程度のデータをダンプするデータがせいぜい数百万レコードしかないならどんな方法でも大丈夫です。代表的な方法は下記の通りです。 mysql -e "SELECT ..." > file_name クエリの結果をそのままファイルにリダイレクトする方法です。リモートDBにクライアントからつないでいる場合に使えます。 SELECT ... INTO OUTFILE 'path/to/file.csv' myqlが稼働しているサーバーのローカルFS上にクエリの結果を出力する方法です。別途、NFSやrsync等でデータを転送する必要があります。 mysqlからデータをダンプする、という点だけに限れば上記の方法でいけます。csvにするためにコンマを入れたり、ファイルを圧縮したりする必要があるため、実際にはもうちょっと細かい手順が必要になります。 I
walk77 2014/02/18
mysql

Hive
リンク
- 2014年2月19日
- 2014年2月18日
- 2014年2月17日