タグ

Hiveに関するterurouのブックマーク (3)

  • SQLite + Pythonユーザ定義関数組込で進捗ダメじゃないですになりました - あんちべ!

    概要 これまで「Hiveからデータ取得・簡単な加工→Pythonで加工・分析」 という流れで作業していたのですが、 Hive→SQLitePythonという流れにしたところ進捗が改善されたので、 SQLiteの簡単な使い方とPythonによるSQLユーザ定義関数の組込方法 についてメモを残しておきます。 特にユーザ定義関数の組込を自由に出来ると、 分析する際、相当楽になるということに気付きました。 SQLite挟むことで何がどう改善されたの? Hiveはデカいデータをゴリゴリ取ってくる分には SQLちょっと書くだけで済むので大変便利ですが、 初動遅いためちょこちょこ小さいデータを何度も取ろうとするとストレス溜まります。 そのため、これまではある程度のデータをまとめてHiveで落としてきて Pythonで加工してから分析するという流れを取っていました。 ただ加工するために似たようなコード何

    SQLite + Pythonユーザ定義関数組込で進捗ダメじゃないですになりました - あんちべ!
    terurou
    terurou 2013/12/18
    numpyすごい事案だ
  • Cloudera Impala がリリースされました - 科学と非科学の迷宮

    (2012/10/25 15:48 追記) Cloudera 公式ブログで Impala についての紹介記事を掲載しました。このブログ記事の完全上位互換なのでそちらの記事をご参照ください。 Cloudera Impala:Apache Hadoopで実現する、真のリアルタイムクエリ | Hadoopとビッグデータソリューションのリーディングカンパニー | Cloudera Japan Cloudera から、データサイエンティストのためのリアルタイムクエリエンジン「Impala」がリリースされました。Hive と完全互換のクエリ言語で、Hive より10倍以上速くクエリを処理できます。 概要及びダウンロードはこちらから! http://www.cloudera.com/content/cloudera/en/products/cloudera-enterprise-core/clouder

    Cloudera Impala がリリースされました - 科学と非科学の迷宮
    terurou
    terurou 2012/10/25
    HiveQL互換のクエリ、MapReduceを介さずにHDFS/HBaseにアクセス
  • Hive/HBaseIntegration - Hadoop Wiki

    Introduction This page documents the Hive/HBase integration support originally introduced in HIVE-705. This feature allows Hive QL statements to access HBase tables for both read (SELECT) and write (INSERT). It is even possible to combine access to HBase tables with native Hive tables via joins and unions. A presentation is available from the HBase HUG10 Meetup This feature is a work in progress,

    terurou
    terurou 2011/02/24
    HBaseとHiveの連携
  • 1