[B! Impala] kimutanskのブックマーク

Performance Optimizations in Apache Impala

Apache Impala is a modern, open-source MPP SQL engine architected from the ground up for the Hadoop data processing environment. Impala provides low latency and high concurrency for BI/analytic read-mostly queries on Hadoop, not delivered by batch frameworks such as Hive or SPARK. Impala is written from the ground up in C++ and Java. It maintains Hadoop’s flexibility by utilizing standard componen

kimutansk 2018/01/05

この資料面白いですね。Impalaがやっていることもですが、比較的汎用的にSQL処理系に使える内容も相応に含まれている。最後のキャッシュミスが性能に与える影響もいい。

リンク

Apache Impala、同時実行時の速度において従来の分析データベースやSQL on Hadoopに圧勝

原文：http://blog.cloudera.com/blog/2017/04/apache-impala-leads-traditional-analytic-database-april-25th/ 原著者: Greg Rahn, Mostafa Mokhtar TPC-DSベースの性能ベンチマークは、従来の分析データベース（Greenplum）と比べ、特に複数ユーザによる同時ワークロードにおいて Impalaの方が優れていることを示しています。また、今までと同様に、Hive LLAP、Spark SQL、PrestoのようなSQL-on-Hadoopエンジンと比べ、大幅に性能が勝っていることを証明しています。この1年は、Apache Impala (incubating) にとって最大の変化がありました。チームは、延々と拡大し続ける利用規模への対応と安定性の向上に取り組んできた

kimutansk 2017/04/27

総論はそうなんだろうな、という感じではありますが、個々のミドルの設定項目はデフォルトなのか、個々に最適化してこの性能なのか。そのあたりと実際の設定値が知りたいところではあります。

impala

リンク

Impala で unix_timestamp(now()) を実行しても現在時刻が返ってこない件について

（画像は Impala の Web サイトより転載） GMOインターネット次世代システム研究室兼 GMOアドパートナーズグループCTO室のM. Y.（自称DevOps担当）です。今回は、普段の業務で気付いた Impala の小ネタをご紹介します。小ネタではありますが、Impala 初見の人は結構つまづきやすいポイントだと思います。出題編：Impala の TIMESTAMP 型の不思議な動作最近、Impala に格納したデータを JDBC 経由で取得するコードを書いてみたところ、なぜか格納したつもりの時間よりも9時間前の時間が返される、ということがありました。 Impala には TIMESTAMP 型で格納されているデータを、java.sql.Timestamp クラスのオブジェクトとして取得しているのに、なんで時間がずれるんだろう？データを入れ間違えたのかな？と思って、i

kimutansk 2017/03/23

ローカルゾーンでの時刻文字列表現にゾーン記述がなく、UTCとして扱うために日本の時刻をUTC基準の時刻として読み込んで格納し、結果読みだす時に問題が発生するパターンと、これどう対処しますかね。

impala
time

リンク

Impala 落ち穂拾い - Qiita

この投稿はDistributed computing (Apache Hadoop, Spark, ...) Advent Calendar 2016の22日目です。昨日はkiszkさんのSparkの記事でした。この記事の概要 Impalaを使い込んでいる人向けの、役に立つ小ネタ集という位置づけ。 Impala入門ではないので、Impala 入門のような情報は下記のようなページを参照すること。 SQL-on-Apache Hadoop – ジョブの特性に適したツールの選択 http://www.cloudera.co.jp/blog/sql-on-apache-hadoop-choosing-the-right-tool-for-the-right-job.html Apache Impala（Incubating）を使ったAmazon S3 上でのアナリティクスとBIの実現 http

kimutansk 2016/12/22

落ち穂拾いの名の通り、ファイルフォーマットやらSSDやらアドミッションコントロールの話はありがたい。そろそろ遭遇しそうな状況ですので。

impala

リンク

Apache Hive vs Apache Impala Query Performance Comparison - Cloudera Blog

The 100% open source and community driven innovation of Apache Hive 2.0 and LLAP (Long Last and Process) truly brings agile analytics to the next level. It enables customers to perform sub-second interactive queries without the need for additional SQL-based analytical tools, enabling rapid analytical iterations and providing significant time-to-value. TRY HIVE LLAP TODAY Read about how Hive with L

kimutansk 2016/10/17

実際のところ、Hive on Tez+LLAPまで入れるとImpalaとほぼ同等の性能にまで達すると。ファイル形式も出力にかかる手間はそう変わらない。

impala
hive

リンク

Cloudera Blog

Enterprises see embracing AI as a strategic imperative that will enable them to stay relevant in increasingly competitive markets. However, it rem ains difficult to quickly build these capabilities given the challenges with finding readily available talent and resources to get started rapidly on the AI journey. Cloudera recently signed a strategic collaboration agreement with Amazon […] Read blog p

kimutansk 2016/10/10

Lambdaアーキテクチャのバッチ層とリアルタイム層で更新しながらクエリ可能にするという視点はそれはそれで面白い。

kudu
impala

リンク

第19回　Impalaの設計と実装［3］ | gihyo.jp

はじめに今回は、ImpalaにおけるI/Oの高速化技法について説明します。前回説明したように、Impalaの実行エンジンは可能な限りメモリ上で処理をすることでアドホッククエリのレイテンシを下げ、スループットを向上させる、という設計方針で開発されています。しかし、データはストレージ（二次記憶装置）に格納されているため、当然、ストレージへのI/Oを回避することはできません。また、Impalaは実行時に十分なメモリを確保するべく、データをメモリ上に保持（キャッシュ）しないため、クエリを実行するたびにデータをストレージから読み出すことを前提として設計されています[1]⁠。今回は、このようなユースケースを考慮しつつ、高速・高効率なアドホッククエリを実行するためのI/O処理方式とデータレイアウトについて解説します。 Short-Circ uit Local ReadsによるI/Oの高効率化 Sh

kimutansk 2016/04/13

Impala on HDFS/Parquetと、Impala on Kudu、どちらがスキャンかけて集計する用途で早くなりますかね。比較図ですとHDFS側でしたが、実際はどうなのか。

HDFS
Impala

リンク

第18回　Impalaの設計と実装［2］ | gihyo.jp

はじめに今回は、ImpalaのSQL処理の高速化において重要な役割を占めるクエリ処理について説明します。 Impalaのクエリ処理の特徴 Impalaは、MapReduceやSparkをはじめとする既存の手続き型のデータ処理エンジンを使用せず、アドホックなSQLクエリの処理の高効率化に焦点を置いた設計と実装が特徴です。たとえば、結合方法を見てみると、MapやReduceもしくはMapReduceジョブなどのブロッキングオペレータ（第16回）を組み合わせていく処理エンジンにおいては、Impalaにおけるパイプライン結合処理などを実現することは必ずしも容易ではありません（第8回「Impala／Prestoにおける結合処理」⁠）⁠。また、MapReduceやSparkでは中間データをディスクに書き込むことにより高い耐障害性を実現しますが、Impalaでは耐障害性を多少犠牲にしてメモリ上で処理

kimutansk 2016/03/23

ここではPlanFlagmentは05Aggregateまで行って以後は別ホストというパターンですか。ホスト数も出るのはわかりやすい。

Impala

リンク

Cloudera Blog

In an era where artificial intelligence (AI) is reshaping enterprises across the globe—be it in healthcare, finance, or manufacturing—it’s hard to overstate the transf ormation that AI has had on businesses, regardless of industry or size. At Cloudera, we recognize the urgent need for bold steps to harness this potential and dramatically accelerate the time to […] Read blog post

kimutansk 2016/02/12

詳細見れてませんが、Impalaの常駐型、SparkやHive-on-Tezのデプロイ時起動型で、そのあたりのモデルの差と、性能の差はどのくらいウェイトあるんでしょうね

Impala
Spark

リンク

Impala概要道玄坂LT祭り 20150312 #dogenzakalt

スライド中のURI - Kuduのインストール(Cloudera Manager使用) http://www.cloudera.com/documentation/betas/kudu/latest/topics/kudu_installation.html - Impala-Kuduのインストール(CDH5.8以前) http://www.cloudera.com/documentation/betas/kudu/latest/topics/kudu_impala.html#install_impala - Apache Kudu Troubleshooting http://kudu.apache.org/docs/troubleshooting.html - Apache Kudu project page http://kudu.apache.org/ - Cloudera Eng

kimutansk 2015/03/12

Parquetは生成時に時間かかってましたがやはり書込みは遅かったですか。読む時は優秀なんですけどね。

リンク

Impalaにファイルで投入したデータはいつから検索可能になるの？ - Taste of Tech Topics

こんにちは。kimukimu(@kimutansk)です。このエントリはSpark, SQL on Hadoop etc. Advent Calendar 2014 - Qiitaの12/14分です。多くの人がSQLなら書けるということで、開発者でなくても自在に検索を定義可能なSQL on Hadoopが今非常に広まりつつあります。私はそんなSQL on Hadoopの中でImpalaを今使用しているため、Impalaについて書かせていただきますね。 Impalaをデータの集計で使用しているのですが、その際に「元々存在しているテーブルにデータをファイルで投入する」ことがあります。ですが、ファイル投入後クエリを実行してみても投入した結果が表示されないことがありました。かつ、Impalaのサイトを見てもどのタイミングでデータが検索可能になるか、は明確には見つからないんですよね・・

kimutansk 2014/12/14

やってみればわかりますが、意外にその記述が無い小ネタ。後からファイルで追加した場合はreflesh必要ですね。

リンク

Cloudera Enterprise 6.0 Documentation

kimutansk 2014/11/23

6コアXeon×2、64GBメモリ、HDD×12、10GBNICで1台あたりスループットはおおよそ1.6GB/秒、100GB/分と。圧縮後の値のようですが・・・

リンク

『アドテクスキルアップゼミ　カラムナーデータベース検証まとめ』

皆様こんにちは。アドテク本部カラムーデータベースゼミチームです。今回の記事ではゼミチームが行った検証結果について発表させていただきます。また、この記事につきましては 11/12 に行われた db tech showcase Tokyo 2014 にて発表させて頂きました内容になります。プレゼン資料はこちらにあがっています。 ※追記 Impala / Presto の File Format についてご指摘を頂きましたのでデータロード及びまとめの部分に追記しました。アドテクスキルアップゼミカラムナーデータベース検証まとめ目的広告システムでは大量のデータをデータベースに入れて解析を行います。小規模から中規模なデータはRDBMSで行えますが、数TBを超えると RDBMS以外の選択肢を探さないといけません。ビッグデータ用のデータベースは比較資料が少なく、また、あったとしても検証

kimutansk 2014/11/13

ファイル形式最適化＆圧縮と、データがキャッシュに乗ってからのパターンも無いとあまり有意な比較ではないような。延長戦出ませんかねぇ

リンク

Hadoop用リアルタイムクエリエンジン Impalaのポテンシャルをレビューした

Hadoop用リアルタイムクエリエンジン Impalaのポテンシャルをレビューした：Databaseテクノロジレポート（1/4 ページ） 2012年10月24日に発表されたばかりのHadoop用リアルタイムクエリエンジンをいち早くレビュー。次期CDHに組み込まれる予定の新機能をどう使いこなす？ Impalaとは Impalaは、Googleが社内で利用しているDremelとF1にインスパイアされて開発されたオープンソースソフトウェアで、HDFS（Hadoop Distributed File System）あるいはApache HBaseに保存されているデータを対象に、アドホックなクエリを実行するためのツールです。Hadoopのディストリビューションベンダとして有名なClouderaが開発しています*1。 Hadoopファミリのソフトウェアは基本的にJava言語で開発されていますが、Imp

kimutansk 2014/11/07

「impala-state-storeは、主にはimpaladプロセスを管理するためのプロセス」てことは負荷自体は軽いんですかねぇ・・

リンク

Cloudera ImpalaとCatalog Serviceの話

Impalaのメタデータ ImpalaはHiveと共通のメタストアを使用しています。従来、メタデータが変更された場合には、Impalaで”invalidate metadata/refresh”コマンドを使用して変更を認識する必要がありました。Impala 1.2.Xから管理方法が変更となり、メタデータの変更を管理するサービス、Catalog Serviceが登場しています。 Catalog Serviceはメタデータの管理を行う中央型のサービスです。Catalog Serviceはメタデータの更新を処理し、クラスタの全てのImpaladノードに対してどのメタデータの変更が行われたのかをStateStore経由で送信します。このサービスにより、Impalaによって行われたメタデータの変更は”invalidate metadata”コマンドを実行することなく、全てのノードで自動的に認識され

kimutansk 2014/11/07

Catalog Serviceはメタデータの更新に自動的に追従するためのもの、と。意外にこのあたりのサービス構成内訳って見当たらないんですよね。

リンク

竹をマサカリで叩き割っていくような豪快進行の Tokyo Impala Meetup に参加してきました #impalajp - #garagekidztweetz

今年熱いトピックのひとつである MPP Query Engine （Rebuild: 52: TLDR Driven Development (Naoya Ito)でも取り上げられてたし）の一角、 Impala を実際に使っている方が一堂に会するという素晴らしい会が開かれるということで、今日は Tokyo Impala Meetup 2014.10 - connpass に参加してきました。ちなみにわたし自身は Impala を運用はしていないのだけれども、やはりトレンドは追っておきたいというモチベーションで参加してきました。 Cloudera World Tokyo 2014 | Cloudera Japanが来週開催される前哨戦のようなとても熱い、内容の濃い会でした。というわけで来週のそのCloudera World Tokyo 2014 | Cloudera Japanも当然楽しみ

kimutansk 2014/11/07

質問についても載っているのがいいですね。Parquetのサイズとブロックサイズの調整については気を付けないと。

リンク

SQL on Hadoop 比較検証【2014月11日における検証レポート】

Impala Meetup 2014/10/31 @Tokyo 講演資料【注意事項】本資料で紹介している検証結果は2014年当時のものです。当該ソフトウェアは成長や改善が早く、現時点のバージョンでは大きく異なる機能や性能となっています。 SQL on Hadoopの最新情報に基づくサービスやシステムインテグレーションにご興味をお持ちの方は、NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス（電子メール： hadoop [AT] kits.nttdata.co.jp）にご相談ください。Read less

kimutansk 2014/11/05

Impalaは綺麗にリソース使い切るので、他のプロセスと共存するときにどうするか、は検証が必要、と・・　ディスクは大丈夫そうですが。

リンク

Userdiveによるimpala導入へのミチ

HBase×Impalaで作るアドテク�「GMOプライベートDMP」@HBaseMeetupTokyo2015SummerMichio Katano

kimutansk 2014/11/01

黒歴史の方がむしろ聞いていて面白いセッションでした・・・

リンク

Cloudera Blog

Enterprises see embracing AI as a strategic imperative that will enable them to stay relevant in increasingly competitive markets. However, it rem ains difficult to quickly build these capabilities given the challenges with finding readily available talent and resources to get started rapidly on the AI journey. Cloudera recently signed a strategic collaboration agreement with Amazon […] Read blog p