Data Discovery on Hadoop - Realizing the Full Potential of your DataDataWorks Summit
Data Discovery on Hadoop - Realizing the Full Potential of your DataDataWorks Summit
とりあえずめもっとく ■本家 Top Apache Hive TM Wiki Home - Apache Hive - Apache Software Foundation JIRA - ASF JIRA リポジトリ Subversion http://svn.apache.org/repos/asf/hive/trunk Git git://git.apache.org/hive.git http://github.com/apache/hive.git ■書籍 Hadoop徹底入門 作者: 太田一樹,下垣徹,山下真一,猿田浩輔,藤井達朗,濱野賢一朗出版社/メーカー: 翔泳社発売日: 2011/01/28メディア: 大型本購入: 14人 クリック: 668回この商品を含むブログ (43件) を見る 6章に30ページほど書かれている。入門にはいいと思う。 Hadoop 第2版 作者: To
ちょっと混乱したけど、どうもこういうことっぽい。 カラムの型 テーブルにロードするファイルでの値 HDFS上の値 selectした場合の表示 IS NULL判定結果 int 空文字でない文字列 空文字でない文字列 NULL true int 空文字 空文字 NULL true string NULLという文字列 NULL NULL false string 空文字 空文字 空文字 false string \N \N NULL true int型のカラムに文字列入れるとNULLになるのはいいとして、string型のカラムをNULLにするためには\Nを使うようだ。 INSERT文で入れる場合はNULL使えばいいんだけどファイルからimportする場合は\N使うのね。ま、テスト以外ではそんなシチュエーションはないか。 ソースでいうとMetadataTypedColumnsetSerDe.def
対象はCloudera版の0.7 どこがエントリポイントかっていう話がまずあるわけだが、hiveコマンドをたたくとこうなりますよね。 $ hive Hive history file=/tmp/wyukawa/hive_job_log_wyukawa_201107032314_538554893.txt >hiveコマンドの実態である$HIVE_HOME/bin/hiveをみると、hiveコマンドをたたくとcliって最後に実行してますね。 cliっていうのはシェルの関数で実態は$HIVE_HOME/bin/ext/cli.shに書かれてます。 で、最終的にはorg.apache.hadoop.hive.cli.CliDriverを実行します。ここにmainメソッドがあります。 >!pwd;みたいな!ではじまるものが指定された場合はそのコマンドがそのまま実行されます。 HiveQLが指定され
モダンとまではいかなくてもシェルスクリプトの開発環境ってみんなどうしてるのかなあと思う今日この頃。 今はHiveでデータをうごうごいじったりするのにシェルスクリプト使っているんだけどなんだかスクリプト地獄になってきている気がするんだよなあ。 前の現場でもスクリプト書いたので開発環境周りを書いてみたいと思います。 その前にありがちな状況としては、 1. サーバー上で直接ソース編集 ローカルはWindowsだしねー 2. バージョン管理無し ファイル、フォルダ名に日付つけて管理 3. 自動テスト無し 軽く動作確認すればOKでしょ 4. CI無し ナニそれおいしいの あたりでしょうか。10年前のWebアプリ開発みたいですねw まあシェルスクリプトって割と書き捨てだし、環境依存多いし、小物系だから、一人でちょちょっとやる分には上記でもそんなに問題無かったりします。 とはいえ複数人で作業する場合とか
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く