タグ

hiveに関するyuku_tのブックマーク (5)

  • Labeled Tab Separated Values (LTSV) ノススメ - stanaka's blog

    追記(2/8 11:30) id:naoyaによる一連のまとめが【今北産業】3分で分かるLTSV業界のまとめ【LTSV】 - naoyaのはてなダイアリーにあります。 また、仕様などをまとめるために http://ltsv.org/ を立ち上げました。 追記ここまで Labeled Tab Separated Values (LTSV) というのは、はてなで使っているログフォーマットのことで、広く使われているTSV(Tab Separated Value)フォーマットにラベルを付けて扱い易くしたものです。はてなでは、もう3年以上、このフォーマットでログを残していて、one-linerからfluentd、Apache Hiveまで幅広く便利に使えています。 ログフォーマットに期待されることは、 フォーマットが統一されている → 共通のツールで集計し易い 新しいフィールドの追加が容易 → サー

    Labeled Tab Separated Values (LTSV) ノススメ - stanaka's blog
  • HiveのSequenceFileとかパーティションとか - wyukawa's diary

    Hiveに関するまとまった情報源として書籍なら徹底入門があります。 とはいえそんなに突っ込んだことは書かれていないので、家のWikiを参照することになると思います。 https://cwiki.apache.org/confluence/display/Hive/Home 最近Confluenceに変わりましたね。 ここではSequenceFileとかパーティションとかその辺について書いてみたいと思います。 が、まずはテキストファイル形式から。なお動作環境はMac上のVirtualBox上のCentOS5.6です。yumでCDH3を疑似分散でいれてます。 下記は家のサンプルにもあるテーブルです。dtとcountryがパーティション用のカラムです。 CREATE TABLE page_view ( viewTime INT, userid BIGINT, page_url STRING,

    HiveのSequenceFileとかパーティションとか - wyukawa's diary
    yuku_t
    yuku_t 2011/07/11
  • blog.katsuma.tv

    前回、JavaScriptMap Reduceのコードが書けるHadoop Streamingについて紹介しました。 標準入出力さえサポートされてあれば、任意のコードでMap Reduuceの処理が書ける、というものでしたが、エンジニアはそもそも面倒くさがり。コードも書くのも面倒です。 と、いうわけで、今回はもうコードすら書かずにSQLライクでMap ReduceできるHiveというプロダクトについて、まとめたいと思います。 Hive Hiveとは、簡単に言うとHadoop上で動作するRDBのようなものです。 HDFSなどの分散ファイルシステム上に存在するデータに対して、HiveQLというSQLライクな言語で操作できます。 で、面白いのがHiveQLの操作は基的にMap Reduceのラッパーになっていること。 要するに、SELECT文実行すると裏でMap&Reduceのタスクが走り出

  • Hive User Meeting August 2009 Facebook

    The document discusses Hive, an open source data warehousing system built on Hadoop that allows users to query large datasets using SQL. It describes Hive's data model, architecture, query language features like joins and aggregations, optimizations, and provides examples of how queries are executed using MapReduce. The document also covers Hive's metastore, external tables, data types, and extens

    Hive User Meeting August 2009 Facebook
  • Runtime error - Meta Search

    Error message : Directory is not found or not writable (DATA_DIR) Directory is not found or not writable (DIFF_DIR) Directory is not found or not writable (BACKUP_DIR) Directory is not found or not writable (CACHE_DIR) Site admin: whitestar Copyright © 2006-2023 whitestar. All Rights Reserved. Icons powered by famfamfam. PukiWiki 1.5.0 Copyright © 2001-2006 PukiWiki Developers Team. License is GPL

  • 1