Hadoopに関するarakashのブックマーク (9)

  • ハタさんのブログ(復刻版) : HiveJDBC を S2JDBC 経由で使えるようにする

    hadoop の話題。その3 HiveのJDBCを使えばリモート上で動いているHiveに対して、JDBC(over thrift)経由でHive QLを実行出来るのですごく便利です。 ref - Hive/HiveClient - Hadoop Wiki HiveJDBCはフツーのJDBCっぽく使えるので、こんな感じで普通のDBサーバにSQLを投げる感覚で使える import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class HiveConnection { public static void main(String...args) thro

    arakash
    arakash 2011/09/20
    HiveのJDBCのサービスをバックグラウンドで起動・停止
  • Hiveをjdbc経由で使う方法 - brfrn169の日記

    現在、仕事でHadoopのサブプロジェクトであるHiveをいじってます。 で、今回、JDBC経由で使ってみたので紹介します。 Hiveのインストールなどの仕方は以下を参照してください。 http://wiki.apache.org/hadoop/Hive/GettingStarted まず、Hiveサーバを立ち上げます。 ポート番号はHIVE_PORTを設定しておけば、変更できます。デフォルトは10000です。 hive --service hiveserver で、以下のようなコードで、HiveにJDBCでアクセスできます。 String driverName = "org.apache.hadoop.hive.jdbc.HiveDriver"; try { Class.forName(driverName); } catch (ClassNotFoundException e) { e

    Hiveをjdbc経由で使う方法 - brfrn169の日記
    arakash
    arakash 2011/08/11
    Hiveサーバの立ち上げ
  • CentOS に Hadoop, Pig, Hive, HBase をインストール - (゚∀゚)o彡 sasata299's blog

    2010年07月12日20:12 CentOS に Hadoop, Pig, Hive, HBase をインストール CentOS5.4 に Hadoop, Pig, Hive, HBase をインストールする備忘録です。まずは JDK をインストールします。JDK6 以上が必要です。 # http://java.sun.com/javase/ja/6/download.html から JDK6 をダウンロード sudo sh jdk-6u21-linux-i586-rpm.bin java -version # 1.6.0_21 次に、yum で簡単にインストールするために、リポジトリを追加します。これでインストールが格段に楽になりますね。 wget http://archive.cloudera.com/redhat/cdh/cloudera-cdh3.repo sudo mv clo

    arakash
    arakash 2011/06/16
    ClouderaでのHadoop、Hiveのインストール
  • 本を読む GREE LabsでHadoopの話を聞いてきた

    GREEさんで不定期でやってる、GREE Labsオープンソーステクノロジー勉強会で、Hadoopの話を聞いてきました。Hadoopは、つまりはGoogleのGFSやMapReduceのクローンだそうで、「Googleを支える技術」にトキメいた人なら必見ですね。 発表は、技術面を簡潔に押さえたうえでわかりやすく、そのうえ実際の利用事例の話も聞けたのが面白かったと思います。最近のWeb系では、サービス面でもマネタイズ面でも、データマイニングとか行動ターゲティングとかがアツいんだなぁと思いました。 プレゼン資料もust録画も公開されていますが、以下、自分のメモという意味で記録しておきます。 Hadoopについて(太田一樹) Preferred InfrastructureのCTOで、Sedueの作者。大量のデータの処理がテーマで、半分は酒でできているw。そんなこんなで、はてブ検索でも使われてい

    arakash
    arakash 2011/06/07
    大規模データ分析をやってる人の話
  • Apache Mahout - Overview

    For Creating Scalable Performant Machine Learning Applications Download Mahout Apache Mahout(TM) is a distributed linear algebra framework and mathematically expressive Scala DSL designed to let mathematicians, statisticians, and data scientists quickly implement their own algorithms. Apache Spark is the recommended out-of-the-box distributed back-end, or can be extended to other distributed backe

    arakash
    arakash 2011/06/06
    Hadoopを利用したOSSの機械学習ライブラリ。協調フィルタリングも作成可能
  • blog.katsuma.tv

    前回、紹介したHiveについての続き。 Hiveは内部で扱うメタデータを「metastore」というデータで保持しています。テーブルやパーティションなどの情報、またレコードが実際に保持されてある場所などのメタデータは全部このmetastoreにまとまっています。このmetastoreは、次の3種類の方法で保存することができます。 Embeded metastore Local Metastore Remote Metastore Embeded metastore Embeded metastoreは主にテスト用途に利用されます。テスト用途なので、単一プロセスからの接続しか許可されていません。 そのため、コンソールを複数起動して、それぞれのコンソールから別のMap&Reduceを走らせる…なんてことができません。ただし、Hiveは初期設定がこのEmbededモードになっているので、特に設定

    arakash
    arakash 2011/06/03
    MySQLをHive metastoreに使用する方法
  • Hiveクエリチューニングメモ - 科学と非科学の迷宮

    Hadoop2版を買ったその一週間後にDeals of the day で半額セールやられて死にたくなったので腹いせに書く はじめに ここに書いてあるのは全部参考リンク・文献からひっぱってきただけで、ほとんど全部検証してない。間違いがあればなるべく早めに更新するよう努力はするが、鵜呑みにして何が起きても自己責任で。 Hive のクエリチューニングに関するメモ書きである。以下のことは「書いていない」 Hadoop自体のチューニング Hive のクエリチューニング以外の話 例えば、圧縮ファイルを Hive 上で扱うにはどうするかとか JOIN 一番左のテーブルに最も大きなテーブルを持ってくる 一番左のテーブルがMRでいう入力データとして流れる。インナーテーブルのデータはメモリに保持される。 同一 JOIN キー 通常は 1 JOIN = 1 MR ジョブだが、同一の JOIN キーを使ってい

    Hiveクエリチューニングメモ - 科学と非科学の迷宮
    arakash
    arakash 2011/06/02
    色々チューニングメモ 効果は未検証
  • 分割可能なLZO圧縮をhadoopで使う

    Twitterでは基的にファイルはLZO圧縮しているようで, 3,4倍のストレージの節約 分割可能 CPUは少ししか使わない IOバウンドのジョブは3,4倍の性能向上 などのメリットがあると言っています.これは使わない手はないということで試してみました. clouderaのこのブログ記事を参考にして進めます. code.google.com/p/hadoop-gpl-compressionもありますが,Twitterが公開している分割可能なのを使います. http://github.com/kevinweil/hadoop-lzo 今回の環境はclouderaのamiをベースにしました. cloudera-ec2-hadoop-images/cloudera-hadoop-fedora-20090623-x86_64 ami-2359bf4 CDH3で,hadopoのバージョンは

    arakash
    arakash 2011/06/02
    lzoのインストール・ビルド
  • Runtime error - Meta Search

    Error message : Directory is not found or not writable (DATA_DIR) Directory is not found or not writable (DIFF_DIR) Directory is not found or not writable (BACKUP_DIR) Directory is not found or not writable (CACHE_DIR) Site admin: whitestar Copyright © 2006-2023 whitestar. All Rights Reserved. Icons powered by famfamfam. PukiWiki 1.5.0 Copyright © 2001-2006 PukiWiki Developers Team. License is GPL

    arakash
    arakash 2011/06/02
    ファイルの圧縮によるパフォーマンスチューニング
  • 1