[B! Hive] wyukawaのブックマーク

Storage Based Authorization in the Metastore Server - Apache Hive - Apache Software Foundation

wyukawa 2019/06/11

Hive

リンク

Cloudera Support - Knowledge Base

wyukawa 2017/01/20

hive

リンク

第6回　Hiveでボトルネックとなってきたメタデータ、HBaseを使ってレイテンシの改善に挑む ―「Hadoop Summit 2016 San Jose」から | gihyo.jp

IT Cutting Edge ─世界を変えるテクノロジの最前線第6回Hiveでボトルネックとなってきたメタデータ、HBaseを使ってレイテンシの改善に挑む ―「Hadoop Summit 2016 San Jose」から 2016年6/28～6/30（米国時間）の3日間に渡って米サンノゼで開催された「Hadoop Summit 2016 San Jose」（⁠主催: Hortornworks／Yahoo!）では、2016年のHadoopトレンドを紹介する数多くの技術／事例セッションが行われました。本稿ではそのひとつ、Hortonwokrsによるセッション「hive HBase Metastore - Improving Hive with a Big Data Metadata Storage」をもとに、HiveのメタデータをHBaseでストアすることでHiveの低レイテンシ化を図る技

wyukawa 2016/07/20

なんか面倒くさそうな印象。。。＞HBase MetaStore

hive

リンク

Managing multi tenant resource toward Hive 2.0

wyukawa 2016/07/14

hive

リンク

Apache Hiveの今とこれから - 2016

今回のウェビナーでは、Hadoop1.xからみなさまに深く親しまれてきたApache Hiveが昨今、どのような形で高速化されてきたかについて話します。MapReduceからTezに変わった実行エンジン、インデックスを持ったカラムナーファイルフォーマットであるORC、モダンなCPUを最大限に活用するVectorization、Apache Calciteを利用したCost Based Optimizerによる実行計画の最適化、そして1秒以下のクエリレスポンスを実現するLLAPについて説明します。いずれの機能も数行の設定やコマンドで活用可能なものばかりですが、今回はそれらの背景でどんな仕組みが動いているのか、どんな仕組みで実現されているのかということについて話します。Read less

wyukawa 2016/04/22

hive

リンク

1000台規模のHadoopクラスタをHive/Tezアプリケーションにあわせてパフォーマンスチューニングした話

Hadoop/Spark で Amazon S3 を徹底的に使いこなすワザ / Hadoop / Spark Conference Japan 2019 講演者：関山宜孝（Amazon Web Services Japan）昨今 Hadoop/Spark エコシステムで広く使われているクラウドストレージ。本講演では Amazon S3 を例に、Hadoop/Spark から見た S3 の動作や HDFS と S3 の使い分けをご説明します。また、AWS サポートに寄せられた多くのお問い合わせから得られた知見をもとに、Hadoop/Spark で S3 を最大限活用するベストプラクティス、パフォーマンスチューニング、よくあるハマりどころ、トラブルシューティング方法などをご紹介します。併せて、Hadoop/Spark に関係する S3 のサービスアップデート、S3 関連の Hadoop

wyukawa 2016/02/19

リンク

Hive dirty/beautiful hacks in TD

The document discusses various techniques used to optimize Hive query execution and deployment in Treasure Data, including: 1) Running Hive queries through a custom QueryRunner that handles query planning, execution, and statistics reporting. 2) Using an in-memory metastore and schema-on-read from Treasure Data's columnar storage to manage schemas and tables. 3) Configuring jobs through HiveConf p

wyukawa 2016/02/13

reflect関数オフにしてるんだ。url decodeどうするんだろって思ったけど別のUDF用意しているんだよな。ま、そんなことよりp55は良いですね。

hive

リンク

スケールアウト可能なSQLエンジンのベンチマークテスト：Presto vs Spark SQL vs Hive on Tez - GMOインターネットグループグループ研究開発本部

2015.12.22 スケールアウト可能なSQLエンジンのベンチマークテスト：Presto vs Spark SQL vs Hive on Tez １、初めに次世代システム研究室のL.G.Wです。最近リリースした関連記事推薦システム：TAXEL byGMOに携わっております。このシステムは多様なデータソースからの集計・解析・ETLが重要になるので、性能とビジネス要件を満たすSQLエンジンを選定するため、主要なSQLエンジンのベンチマークテストを実施しました。 “Small Start, Scale Fast” – 最初のハードウェアコストをなるべく低く抑え、ビジネスが拡大したらシステムも拡張できることが前提です。主にバッチ処理用途で、ある程度のリアルタイム性も要求されます（数分間～1時間内）。データの規模は数十GBから数TBくらいの想定です。主要なSQLエンジンとして、スケーラビリテ

wyukawa 2015/12/22

PrestoでOutOfMemoryで失敗すること多かったっけ？て思ったら0.86か。さすがに古すぎるのでは。最近はメモリ管理変わって落ちることは無い気がするけど。

リンク

DMMゲームのログ解析~ログ収集と解析の概要~ - DMM.comラボエンジニアブログ

現在オンラインゲームのバックエンド、KPIシステムを担当していますマサヨシです。今回のブログでは【DMMオンラインゲームで実際に実装しているログとKPI】に関して3回にわたってご紹介致します。 DMMオンラインゲームでは、これまではオンラインゲームのプロジェクトごとに行っていたログの収集方法を統一し、プロジェクトに依存しない基本KPI機能とゲーム独自のKPI機能を実装するためのフレームワークを開発しましたのでその事例をもとにご紹介します。ログ収集、解析の概要まず、オンラインゲームのログ収集の全体像をご紹介します。オンラインゲームのログ収集ではApacheやnginx、PHPのログをfluentdで収集しています。 fluentdに集めたログをHadoopの分散処理システムに保存し、HiveやImpalaで解析をする流れになっています。ご存知の方も多いと思いますが、HiveとはHD

wyukawa 2015/08/24

DMMはImpalaか。それはそれとしてMySQLとHiveでデータをやりとりするのが面倒臭そうに見えるのと、MySQLは分析用途に向いてないのでは？と思ったけど、どうなんだろ。

リンク

CDH5.4 Hiveでのカラムずれ問題 - イクジニアブログ

ビールはキリン党のにいやんです。こんばんわ。一番搾りが好きですが、プリン体がラガーの方が少ないと聞き、ラガーに浮気しようかと・・・さてさて、先日CDH5.4のアップデート方法を書いて、特に問題なかったぜ！って思ったのですが。後から大問題が確認されました。。。なんとHiveのバグを思いっきり踏んでいたらしく、selectした際のカラムずれが起きてました...orz バグは以下のチケットにあがっています。 [HIVE-9613] Left join query plan outputs wrong column when using subquery - ASF JIRA どのようなバグかざっくりいうと、「left outer joinを繰り返すと、select したのと違うカラムが表示される場合がある」という、なんとも悲惨なバグです。すでにチケットはクローズされ、Hive1.2

wyukawa 2015/06/15

これはクリティカルだ。今はHDP2.1(hive 0.13)使っているから踏んでなかったけど。

hive

リンク

第一回Hivemall Meetup｜IT勉強会・イベントならTECH PLAY［テックプレイ］

Apache Hive上で大規模な機械学習を行うためのライブラリである「Hivemall」（https://github.com/myui/hivemall）について、開発者やユーザ間で情報交換をするイベントです。 Hivemallの新しい機能の紹介や使い方、トレジャーデータにおけるHivemallのサポート体制について紹介します。また、Hivemallを既に実務に利用されているAdtech業界の2社からHivemallの大規模データ分析での利用事例を発表頂く予定です。 Hivemallに興味はあるけれどまだ使ったことのない方や、これから機械学習を業務に取り入れていく上での調査目的での参加もお待ちしております。

wyukawa 2015/05/19

hive

リンク

スマートニュースの世界進出を支えるログ解析基盤 #jawsdays #tech

スマートニュースは昨年の 10/1 に米国版をローンチするにあたり、ログ解析基盤のリニューアルを行いました。日本に加えて米国やその他の国が入ってくることにより、単なるユーザ数の増加に加え、OS x 国 x タイムゾーン x 多種多様なメトリクスのような集計軸が増えることで、ログの前処理、集計、可視化に様…

wyukawa 2015/03/22

Chartioは知らないな

リンク

Hadoop利用者ならきっと知ってる、Hive/Prestoクエリ関数の挙動の違い - Qiita

HiveQLではスピードに難を感じていたため、私もPrestoを使い始めました。 MySQLやHiveで使っていたクエリを置き換える時にハマったTipsをまとめていきます。 AWS AthenaでPrestoを使っている方も増えてると思うので、Presto標準関数での記述例も拡充していきます。 Prestoとは Prestoはオンメモリで動く分散SQLエンジンで、その進化は目を見張る物です。発表された当時は色々な成約があり使うことを躊躇していましたが、2015年頃からはもう使わない理由はなくなりました。アドホックに使えるとても高速なSQLエンジンですので、バッチ向けのHiveのように実行結果を待つ時間はほとんどありません。 Hiveですと1つ1つの実行に時間が掛かるので、クエリに慣れていない新参者には辛い物がありました。しかしPrestoではインタラクティブに実行できますので、トライ

wyukawa 2015/01/22

Presto
hive

リンク

MRv2/Tezで簡単にクエリのベンチをとった - たごもりすメモ

Hiveしか使ってないので以下のオプションを設定するだけで使える。楽。 SET hive.execution.engine=tez; なお HDP 2.1 with Hive 0.10, Tez 0.4 での話です。クラスタの概要は以下の通り。 master x3 slave x20 Xeon(R) CPU E5-2630L v2 (6core 12Threads) x2 RAM 64GB HDD x12 シナリオデータの流れとしては以下のようなシナリオを想定する。外部から非圧縮plain text tsvでHDFS内のファイルにデータが書かれる LOADで hourly テーブルに読み込む dailyで INSERT により daily テーブルに書き込むこのときファイルフォーマット変換や圧縮を同時に行う hourly テーブルの変換済みパーティションおよび元の生データは削除する

wyukawa 2014/11/14

わからなかった。というか普段段数とか全く意識してないな＞　"このクエリはMapReduceだと2段のmapreduceに分解されて実行されることはHive大好きなみなさんならクエリを見た瞬間にわかると思うが、"

hive

リンク

Hive dynamic partition insertsにまつわるいくつかの問題と対処について - たごもりすメモ

だいぶ前のHiveの機能準拠で作ってたクラスタを大幅に作り直したので、ついでにETL処理をdynamic partition inserts一発でやればMapReduce 1ジョブで済んで超効率的に！やった！と思ったらいくつかハマったのでメモ。なおdynamic partition insertsについては説明が面倒なので公式Wikiの該当ページを読むとよい、が、簡単に言うとHiveでパーティションにINSERTするときにINSERT先のパーティション指定をSELECTクエリの出力により行う、というもの。なお断りがない限りは HDP2.1 with Hive 0.13 の環境で試したものとする。(移行元はCDH4) クエリの書き方単純に言うと、パーティションとして指定したいカラムは SELECT 句の最後に置かなければならない。簡単に言うと year=INT/month=INT

wyukawa 2014/11/14

hive

リンク

SQL on Hadoop 比較検証【2014月11日における検証レポート】

Impala Meetup 2014/10/31 @Tokyo 講演資料【注意事項】本資料で紹介している検証結果は2014年当時のものです。当該ソフトウェアは成長や改善が早く、現時点のバージョンでは大きく異なる機能や性能となっています。 SQL on Hadoopの最新情報に基づくサービスやシステムインテグレーションにご興味をお持ちの方は、NTTデータ基盤システム事業本部 OSSプロフェッショナルサービス（電子メール： hadoop [AT] kits.nttdata.co.jp）にご相談ください。Read less

wyukawa 2014/11/05

リンク

データサイエンティストのためのHiveQL分析クエリテンプレートその６ - トレジャーデータ（Treasure Data）ブログ

*トレジャーデータはデータ収集、保存、分析のためのエンドツーエンドでサポートされたクラウドサービスです。データサイエンティストのためのHiveQL分析クエリテンプレートシリーズ：その１, その２, その３, その４, その５, その６ E. リテンション分析最後はリテンションに関するクエリテンプレートです。パターン E-1：直帰率 ※ ここでは同日内に1回しかログインしなかったユーザーを「直帰」と見なします。 SELECT t2.d AS d, COUNT(1)/SUM(t2.cnt)*100 AS bounce_rate FROM ( SELECT TD_TIME_FORMAT(time, 'yyyy-MM-dd', 'JST') AS d, uid, COUNT(1) AS cnt FROM login GROUP BY TD_TIME_FORMAT(time, 'yyyy-M

wyukawa 2014/06/12

参考にする。ただ直帰率のSUM(t2.cnt)のところでt2.cntって要はUU数だからSUM取る必要あるのかな。日付で集計しているので結果的には同じになりそうだけど。

リンク

Hive No files matching path file and file Exists

wyukawa 2014/06/11

もしかしてyarnだとload data local inpath使えなかったりするのかな

hive
yarn

リンク

Cloudera Blog

Enterprises see embracing AI as a strategic imperative that will enable them to stay relevant in increasingly competitive markets. However, it rem ains difficult to quickly build these capabilities given the challenges with finding readily available talent and resources to get started rapidly on the AI journey. Cloudera recently signed a strategic collaboration agreement with Amazon […] Read blog p

wyukawa 2014/04/22

性能向上がメインって感じかな。他に気になるのはHIve Server2のHTTPサポートとJDBCのキャンセル、非同期実行かな。

hive

リンク

Hive Beer を楽しむ会 (2014/03/24 19:00〜)

お知らせ【重要なお知らせ】iOSアプリの運用および提供を2024年6月3日(月)を以て終了いたします。詳細はお知らせをご覧ください。お知らせ connpassではさらなる価値のあるデータを提供するため、イベントサーチAPIの提供方法の見直しを決定しました。2024年5月23日(木)より「企業・法人」「コミュニティ及び個人」向けの2プランを提供開始いたします。ご利用にあたっては利用申請及び審査がございます。詳細はヘルプページをご確認ください。

wyukawa 2014/02/23

なんだ、これwww

hive
OSS

リンク

はてなブックマーク

タグ

関連タグで絞り込む (23)

Hiveに関するwyukawaのブックマーク (44)

お知らせ

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

今週のはてなブックマーク数ランキング（2024年9月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス