タグ

ブックマーク / mt.orz.at (7)

  • Hiveのロゴについての豆知識

    hcj2013wお疲れ様でした。 Ust録画や講演資料は殆ど公開されているようです。 特別企画として、NHNのなんとかモリスさんという方と、TreasureDataのりぴーなんとかさんという方がClouderaをスポンサーにつけてHiveTシャツを作ったそうで、私も1着いただきました。懇親会でHiveの愛を語ると戴けるという体を取っていたのですが、私はキーノートの前に戴いてしまったので、ここでHiveの愛を語ってみようと思います。 まず、Hiveがキモイキモイと言いますが、デザインデータはきちんと作られているのでやっつけで作ったようなものではないのですよ。イラストレーターのファイルを見てみましょう。パスできちんと作られている事がわかります。(あ、以下の画像はCS6です。キリッ) ちなみに、みなさんおわかりかと思いますが、Hiveの顔はHadoopの顔をそのまま使っています。 ね。Hadoo

    Hiveのロゴについての豆知識
    muddydixon
    muddydixon 2013/01/24
    なんだろう、ちょっとどうかしてるw
  • HiveServerでファイルディスクリプタがリークする件について

    @tagomorisさんがこんな事を言っていたので、調べてみました。 まずは、.pipeoutファイルについて。 結論から言うと、Hiveの不具合です。 ((追記 2012/06/23 14:00)Hiveのプログラムの書き方は良くないんだけど、Leakはしていないと思われます.) この.pipeoutファイルはSessionStateのstartメソッドでOpenされます。startメソッドはHiveServerの場合、クライアントがコネクションをはった時にコールされます。(HiveSourceCodeReadingの発表資料にもちょっとだけ書いてあります。) .pipeoutファイルはHiveServerではpipeInという変数によって、BufferedReader -> FileReaderを通して参照されます。 ↓のような感じ。 pipeIn = new BufferedRead

    HiveServerでファイルディスクリプタがリークする件について
  • HiveでJSON形式のログを構造化する

    fluentの勉強会に参加したら、まわりがモヒカンばっかりで消毒されそうになったタムタムです。 先日のMixi Engineers' Seminar #3でMixiがJSONデータをHiveで集計しているよーという発表をしていて、Fluentのtail + apacheもjsonとしてデータが飛んでいるとの事で、相性は悪くないよねーというわけでサンプルを作ってみました。(スライドを見ていた感じではこんな感じだったはず) まずサンプルデータを用意します。 適当に100件ほど作りました。 (nameが名前でexam{1|2|3}は何かのテストの点数です) {"name" : "Irma", "exam1": 58, "exam2": 73, "exam3":85} {"name" : "Dorothy", "exam1": 50, "exam2": 39, "exam3":11} {"name

    HiveでJSON形式のログを構造化する
  • Hiveのパッチ投稿のやりかた

    こんにちは、ポテトサラダを極めようと心に決めたタムタムです。 (昨日作ってべたら満足しました(・w・)) 今日はHiveのパッチの書き方をまとめます。 Hadoop体とはちょっと作法が違います。Hadoop体はパッチを投げると自動でJenkinsがテストしてくれたりするらしいのですが、Hiveはそんなことやってくれません。またパッチもJIRAに添付するだけではダメで、Phabricator(Reviewボードみたいなもの)というツールを使ってDiffをアップしてReviewしてもらう必要があります。 今回は実際にHIVE-2703のパッチを投げるまでの手順を書いていきます。 http://mt.orz.at/archives/2012/02/hivejira.html こちらの内容と被っていますが、こっちでは説明しきれなかったところも書いていきます。 なお、手順はsubversion

    Hiveのパッチ投稿のやりかた
  • 開発アーカイブ - タムタムの日記

    2014年1月 8日 CentOS6.3にてffmpegをビルドした時の記録 その2 2013年12月12日 Windows OSに関する覚え書きと訂正 2013年11月21日 Treasure DataのHiveクエリでハマったこと 2013年10月 1日 sequelのmigrationで列にcharacter setを指定する方法 2013年9月11日 親ディレクトリにinstall.shがあるとlibtoolize -cでltmain.shがコピーされない 2013年9月 6日 virshのsnapshotで木構造の根っこに作る方法がわからない 2013年9月 3日 CentOS6.3にてffmpegをビルドした時の記録 その1 2013年9月 3日 ffmpegで綺麗にエンコードできない(゜◇゜) 2013年3月28日 CDH4でOS再起動をすると実質的にプロセスの強制終了になる

  • Hiveで整形されていないログを集計する方法

    タムタムです。Hadoop アドベントカレンダーの12/24分 を書かせていただきます。 それと、時々ログ解析飲み会というものをやっているという噂があるのですが、わたしも混ぜてください>< さて、まずはじめに・・。 ログが整形されているなんて都市伝説です。 自分が作るアプリは最初からログ設計をして整形して出力しているのですが、世の中そんなものばかりではありません。Hiveで集計するためにはある程度書式が整っていないとスマートに処理できません。 適当なスクリプトで処理するのも手ですが、もともと分散しないと処理できないほどの量なのに、それを分散環境で処理しないとか無いと思います・・。 となると、スクリプトを書いてHadoop Streamingでログを処理すればいいよねーとなるわけです。が、用途はある程度限られてしまいますが実はHiveでも出来ます。 例えば、以下のようなログがあるとします。

    Hiveで整形されていないログを集計する方法
  • タムタムの日記

    前回の記事からの更新です。 今回は、AAC関係のものをビルドに含めているので再配布不可なビルドです。 ffmpegを2.1系にした事で、VP9, H265/HEVC が使えるようになっています。 前回からの変更点 ビルドに以下を追加 gmerlin (frei0rの依存) frei0r libaacplus mp4v2 libfaac fdk-aac ffmpeg-2.0.1からffmpeg-2.1.1にバージョンアップ libblurayを0.3から0.5にバージョンアップ vid.stabのバージョンを 9ed9836e10567f76decfa7fac178bb70a7bb9452 に固定 trunkや0.98はvsLocalmotions2TransformsSimpleが消えていてffmpegのビルドでエラーになるため またこのバージョンにした事でCMakeファイルの場所がsrc

    タムタムの日記
  • 1