タグ

2014年2月18日のブックマーク (2件)

  • HiveでJSON形式のログを構造化する

    fluentの勉強会に参加したら、まわりがモヒカンばっかりで消毒されそうになったタムタムです。 先日のMixi Engineers' Seminar #3でMixiがJSONデータをHiveで集計しているよーという発表をしていて、Fluentのtail + apacheもjsonとしてデータが飛んでいるとの事で、相性は悪くないよねーというわけでサンプルを作ってみました。(スライドを見ていた感じではこんな感じだったはず) まずサンプルデータを用意します。 適当に100件ほど作りました。 (nameが名前でexam{1|2|3}は何かのテストの点数です) {"name" : "Irma", "exam1": 58, "exam2": 73, "exam3":85} {"name" : "Dorothy", "exam1": 50, "exam2": 39, "exam3":11} {"name

    HiveでJSON形式のログを構造化する
  • MySQLからデータをダンプしてHiveにデータをロードするまでの流れ

    順番に方法を見ていきます。 MySQLから数百万レコード程度のデータをダンプする データがせいぜい数百万レコードしかないならどんな方法でも大丈夫です。代表的な方法は下記の通りです。 mysql -e "SELECT ..." > file_name クエリの結果をそのままファイルにリダイレクトする方法です。リモートDBにクライアントからつないでいる場合に使えます。 SELECT ... INTO OUTFILE 'path/to/file.csv' myqlが稼働しているサーバーのローカルFS上にクエリの結果を出力する方法です。別途、NFSやrsync等でデータを転送する必要があります。 mysqlからデータをダンプする、という点だけに限れば上記の方法でいけます。csvにするためにコンマを入れたり、ファイルを圧縮したりする必要があるため、実際にはもうちょっと細かい手順が必要になります。 I