概要 Apache Hive の split 関数でカンマ区切りの文字列を処理するサンプルを書く 検証環境: Apache Hadoop 3.3.0 + Apache Hive 3.1.2 + Java 8 (AdoptOpenJDK 1.8.0_265) + macOS Catalina
![Apache Hive の split 関数でカンマ区切りの文字列を処理する - Qiita](https://cdn-ak-scissors.b.st-hatena.com/image/square/291ac9798d51e970bb8ca8f98b130e93ac0e5f46/height=288;version=1;width=512/https%3A%2F%2Fqiita-user-contents.imgix.net%2Fhttps%253A%252F%252Fcdn.qiita.com%252Fassets%252Fpublic%252Farticle-ogp-background-412672c5f0600ab9a64263b751f1bc81.png%3Fixlib%3Drb-4.0.0%26w%3D1200%26mark64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZ3PTk3MiZoPTM3OCZ0eHQ9QXBhY2hlJTIwSGl2ZSUyMCVFMyU4MSVBRSUyMHNwbGl0JTIwJUU5JTk2JUEyJUU2JTk1JUIwJUUzJTgxJUE3JUUzJTgyJUFCJUUzJTgzJUIzJUUzJTgzJTlFJUU1JThDJUJBJUU1JTg4JTg3JUUzJTgyJThBJUUzJTgxJUFFJUU2JTk2JTg3JUU1JUFEJTk3JUU1JTg4JTk3JUUzJTgyJTkyJUU1JTg3JUE2JUU3JTkwJTg2JUUzJTgxJTk5JUUzJTgyJThCJnR4dC1jb2xvcj0lMjMyMTIxMjEmdHh0LWZvbnQ9SGlyYWdpbm8lMjBTYW5zJTIwVzYmdHh0LXNpemU9NTYmdHh0LWFsaWduPWxlZnQlMkN0b3Amcz1jNGMwNjU1Zjk1MGQ2NGVhMGQ1Mzg3YjFiYWI1ZDYzMw%26mark-x%3D142%26mark-y%3D57%26blend64%3DaHR0cHM6Ly9xaWl0YS11c2VyLWNvbnRlbnRzLmltZ2l4Lm5ldC9-dGV4dD9peGxpYj1yYi00LjAuMCZoPTc2Jnc9NzcwJnR4dD0lNDBuaXdhc2F3YSZ0eHQtY29sb3I9JTIzMjEyMTIxJnR4dC1mb250PUhpcmFnaW5vJTIwU2FucyUyMFc2JnR4dC1zaXplPTM2JnR4dC1hbGlnbj1sZWZ0JTJDdG9wJnM9YjUwNTcxYmQwZGZlOWY2NDJiZTEwMDkwY2QzNjdjYjg%26blend-x%3D142%26blend-y%3D486%26blend-mode%3Dnormal%26s%3D3f59d0309b1dbccede16419759159f44)
HiveQLではスピードに難を感じていたため、私もPrestoを使い始めました。 MySQLやHiveで使っていたクエリを置き換える時にハマったTipsをまとめていきます。 AWS AthenaでPrestoを使っている方も増えてると思うので、Presto標準関数での記述例も拡充していきます。 Prestoとは Prestoはオンメモリで動く分散SQLエンジンで、その進化は目を見張る物です。 発表された当時は色々な成約があり使うことを躊躇していましたが、2015年頃からはもう使わない理由はなくなりました。 アドホックに使えるとても高速なSQLエンジンですので、バッチ向けのHiveのように実行結果を待つ時間はほとんどありません。 Hiveですと1つ1つの実行に時間が掛かるので、クエリに慣れていない新参者には辛い物がありました。 しかしPrestoではインタラクティブに実行できますので、トライ
This section introduces the Hive QL enhancements for windowing and analytics functions. See "Windowing Specifications in HQL" (attached to HIVE-4197) for details. HIVE-896 has more information, including links to earlier documentation in the initial comments. All of the windowing and analytics functions operate as per the SQL standard. The current release supports the following functions for windo
Hadoop関連(全部俺) Advent Calendar 2014:11日目の記事です Cloudera Quickstart VMによりHadoopの環境が用意できました。HadoopのコアはHDFS(Hadoop分散ファイルシステム)とMapReduce(分散処理)ですが、今回はHadoopに関するところは無視して、まずは10分(ぐらい)で Hiveとはどんなものか、使いながら把握していきましょう。かなり大雑把なので、正確な情報は書籍やウェブでご確認下さい。 HDFSやMapReduceについては以前書いた記事などを参考にして下さい(めざせ!hadoopエンジニア(開発者編)、Hadoopを40分で理解する) Hiveとは です。愛くるしい(笑)。見れば見るほど愛着がわいてきます(笑)。なお、こんな非売品&限定のHiveTシャツもあります。 SQLを知っている人は多い HiveはAp
When hive.cache.expr.evaluation is set to true (which is the default) a UDF can give incorrect results if it is nested in another UDF or a Hive function. This bug affects releases 0.12.0, 0.13.0, and 0.13.1. Release 0.14.0 fixed the bug (HIVE-7314). The problem relates to the UDF's implementation of the getDisplayString method, as discussed in the Hive user mailing list.
Hive Hacksあれこれ。内容はほぼO’REILLY Hadoop Hacksからの引用そのまんま。ただの個人メモなのだが、ずうずうしく公開させてもらいます。いろんなところに記録しておいてもすぐに「あれ、あのメモどこやったっけ」となるのでここに書くのが一番なんだよね。書いたからって理解できるわけでもないんだが… (初めに書いておくと、この投稿長いです) 基本原則的なこと。 ●UPDATEは回避する 処理速度が遅延するため、UPDATEを多数含むようなSQLをHiveSQLに変換することは避けるべき ●MapReduceタスクのオーバーヘッド Hiveは「高スループットを目指す処理には向いているが、低レンテンシを目指す処理には向いていない」というMapReduce処理の特徴を引き継いでいる。MapReduceタスクのオーバーヘッドが付きまとうことを念頭におく。 ●並列分散ができない処理
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く