[B! hive] uokadaのブックマーク

US flight data analysis using hive

uokada 2022/12/08

hive

リンク

Apache HiveとDruidを使ったリアルタイムSQL

IoTやAIのユースケースがますます増えているのなか、ビッグデータをリアルタイムにSQLでクエリする需要が高まっている。こちらを実現するソリューションとして、Apache Hive と Druid の組合せが魅力です。 Apache Hive と Druid とも実績の高いオープンソースソフトウェア（OSS）。両方とも非常に大量のデータでも対応できるスケールアウト・アーキテクチャ。 Apache Hive と Druid 自体や依存コンポネント全ては、Apache Ambariを使ってGUIウィーザーでインストール可能。簡単な設定だけで連携可能。今回はApache HiveとDruidを使ったリアルタイムSQL処理を、サンプルみながら説明する。 Apache Hive 2とは Apache HiveはHadoop上のSQLデータ・ウェアハウスです。最新のHive 2.2は新しいLLA

uokada 2019/03/17

リンク

PyHive を使って Hive カタログのテーブルに Presto クエリを実行する | Lancork

※当ブログではアフィリエイト広告を利用しています。 Presto をさわり始めたのでプログラミング言語から簡単に操作したいと思い色々見てみたところ、Python では PyHive というパッケージがありました。 PyHive を使って Hive カタログのテーブルに Presto クエリを実行するまでをメモします。 Hiveテーブルの準備適当にテーブルを作成しレコードを入れておきます。今回はhogeテーブルからvalue1を取得することが目標です。 hive> CREATE TABLE hoge > (fuga string); hive> INSERT INTO TABLE hoge VALUES('value1'); hive> SELECT * FROM hoge; OK value1 PyHiveのインストール以下のオフィシャル GitHub PyHive リポジトリのドキュ

uokada 2018/12/13

hive
sql

リンク

PyHive + ipython-sql で Jupyter から Hive に接続する - blog.8-p.info

Jupyter から Hive を使うのに PyHive + ipython-sql が便利だった。 PyHive PyHive は Hive の Thrift クライアントを DB-API 2.0 (PEP 249) 準拠の API でラップするライブラリだ。DB-API は Python でデータベースにアクセスするための標準的なインターフェースで、Perl の DBI や Java の JDBC に相当する。 PyHive と pandas.read_sql があれば、とりあえず SQL の結果を pandas に読み込むことはできるようになる。 ipython-sql 世の中には「SQL を書くのは最初だけで、pandas に読み込んでからが本番」という仕事をしている人もいるんだろうけど、私の場合は SQL 上でいろいろすることのほうが多いので ipython-sql も使っている

uokada 2018/12/09

hive
sql

リンク

HiveServerを使用してPythonやPerlからHiveQLを実行する - たごもりすメモ

HiveServerはThriftプロトコルをしゃべる*1ので、おなじくThriftで接続すると任意のクエリを発行できたりして大変便利。ということで、やったので、そのメモ。準備まずHiveServerだけど、hiveコマンドを叩いてクエリが実行できる状態なら以下のコマンドで起動する。*2 $ hive --service hiveserver ただしあらゆるデータ投入などをThrift経由でやるのは正直めんどくさい。hiveと叩けば起動するHive CLIでもデータ操作はしたい。なので conf/hive-default.xml にMetastoreの設定をする。今回は手元のMySQLに hive データベースを作り、それを使うようにした。このあたりが大変参考になった。 HiveのmetastoreをMySQLを使ってLocal Metastore形式で利用する - blog.kats

uokada 2016/11/07

リンク

Cloudera | ハイブリッドデータカンパニー

データを信頼し、AI を信頼する信頼できるデータ、信頼できるモデル、信頼できる AI を実現するために、これほど多くのクラウドのさまざまなデータタイプを管理でき、オープンデータのイノベーションと大規模展開に対応できるプラットフォームは他にありません。

uokada 2016/06/20

リンク

ほぼやけくそHive Hacks – OpenGroove

Hive Hacksあれこれ。内容はほぼO’REILLY Hadoop Hacksからの引用そのまんま。ただの個人メモなのだが、ずうずうしく公開させてもらいます。いろんなところに記録しておいてもすぐに「あれ、あのメモどこやったっけ」となるのでここに書くのが一番なんだよね。書いたからって理解できるわけでもないんだが… （初めに書いておくと、この投稿長いです）基本原則的なこと。 ●UPDATEは回避する処理速度が遅延するため、UPDATEを多数含むようなSQLをHiveSQLに変換することは避けるべき ●MapReduceタスクのオーバーヘッド Hiveは「高スループットを目指す処理には向いているが、低レンテンシを目指す処理には向いていない」というMapReduce処理の特徴を引き継いでいる。MapReduceタスクのオーバーヘッドが付きまとうことを念頭におく。 ●並列分散ができない処理

uokada 2015/09/09

hive
HiveQL

リンク

Scaling the Facebook data warehouse to 300 PB

At Facebook, we have unique storage scalability challenges when it comes to our data warehouse. Our warehouse stores upwards of 300 PB of Hive data, with an incoming daily rate of about 600 TB. In the last year, the warehouse has seen a 3x growth in the amount of data stored. Given this growth trajectory, storage efficiency is and will continue to be a focus for our warehouse infrastructure. There

uokada 2015/05/02

リンク

Pig, Hiveなど8種類のMapReduce言語についての比較 - nokunoの日記

以下の記事ではPig, Hiveなど8種類の言語でMapReduceの一番単純な例、WordCountを記述した場合のスクリプトの比較を行っています。とても興味深かったので紹介したいと思います。Pigs, Bees, and Elephants: A Comparison of Eight MapReduce Languages « Dataspora なお、今回はRSS購読しているDataSporaのブログから発見しましたが、エントリを寄稿したエンジニアの個人ブログも大変興味深いのでオススメです。はじめにMapReduceを美しく効率的に書くために、私は様々な言語を比較しました。果たしてその勝者は！？私の個人ブログでは統計やグラフのアルゴリズムをMapReduceで記述する方法を紹介し、擬似コードによる実装を示しました。擬似コードには2つの問題点があります：誰もがその命令を理解できると

uokada 2015/04/25

リンク

はてなブックマーク

タグ

関連タグで絞り込む (10)

hiveに関するuokadaのブックマーク (9)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス