Cloudera Impala supports using RCFile, SequenceFile, or Text Files. Creating RCFile, SequenceFile, or Text Files If you do not have an existing file to use, begin by creating one. To create an RCFile, SequenceFile, or Text File table: In the impala-shell interpreter, issue a command similar to: create table rcfile_table (column_specs) stored as rcfile; create table sequencefile_table (column_specs
Impalaのファイルフォーマット 最適なファイルフォーマットを使用することは、優れたパフォーマンスを得るためには極めて重要です。これは、Impala アプリケーション(英語)でJSONがサポートされていない理由の一つです。実際に、1レコードでさえ全てのテキストレコードの構文解析や取得をすることは、パフォーマンスにひどいダメージを与えます。Impalaでは別の一連のフォーマットを推奨しています。 ここではjsonデータを含んだAvroフォーマットのHiveテーブルと、新しいParquetフォーマットのテーブルをどのようにして作成するのかを紹介しています。HadoopチュートリアルシリーズのEpisode 2 of the Season 2 (英語)の同じYelpデータを使用しています。 Avro 最初の手順はPigスクリプトの支援によりデータをJSONに変換することです。Pig Edito
(この記事は、Hadoop Advent Calender 2013 の12日目の記事です) こんにちは、Amebaのログ解析基盤Patriotの運用をしている、鈴木(@brfrn169)と柿島大貴です。 Patriotについては以下をご覧ください。 http://ameblo.jp/principia-ca/entry-10635727790.html http://www.slideshare.net/cyberagent/cloudera-world-tokyo-2013 今回、Amebaのログ解析基盤PatriotにCloudera ImpalaとPrestoを導入しました。 Cloudera ImpalaとPrestoのインストール方法や詳細ついては、下記URLをご覧ください。 Cloudera Impala http://www.cloudera.com/content/clo
HadoopのSQL対応分散クエリエンジン「Cloudera Impala」。Clouderaがオープンソースで公開 Hadoopのディストリビューションベンダとして知られるClouderaは10月25日、SQLに対応し、データの分析速度はMapReduceよりも何倍も高速だという新しい分散クエリエンジン「Cloudera Impala」(製品名「Cloudera Enterprise RTQ」)をオープンソースで公開しました。 これまでHadoopでは内部でMapReduceと呼ばれる処理が用いられていましたが、ImpalaではMapReduceを使わず、Clouderaが2年かけて開発した独自の分散クエリエンジンを用いて処理を行います。Hiveの上位互換のSQLが利用でき、Hive/MapReduceで数分かかっていた応答時間を数秒に短縮すると説明されています。 グーグルのDremel
2014/10/31に Tokyo Impara Meetup で実施した嶋内の発表の日本語資料です http://connpass.com/event/9031/
前にフライング気味に紹介しましたが、今回のバージョンでUDFとUDAFに対応していますね。(以前UDFを紹介したのはCDH5.0beta1環境だったので、当然ながら未サポートでした。今回のバージョンで正式にサポートされています) もう一つ、嬉しい変更は、自動的にメタデータをリフレッシュする「カタログサービス」が導入された点でしょうか。 Cloudera ImpalaではHiveのメタストアを使用していますが、従来は変更された内容を読み込むために、REFRESH またはINVALIDATE METADATAを行う必要がありました。今回のカタログサービスにより、自動的にリフレッシュされるようになります。 # service impala-state-store start # service impala-catalog start <— これが新しい # service impala-
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く