[B! Hadoop] arakashのブックマーク

ハタさんのブログ(復刻版) : HiveJDBC を S2JDBC 経由で使えるようにする

hadoop の話題。その3 HiveのJDBCを使えばリモート上で動いているHiveに対して、JDBC(over thrift)経由でHive QLを実行出来るのですごく便利です。 ref - Hive/HiveClient - Hadoop Wiki HiveJDBCはフツーのJDBCっぽく使えるので、こんな感じで普通のDBサーバにSQLを投げる感覚で使える import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Statement; public class HiveConnection { public static void main(String...args) thro

arakash 2011/09/20

HiveのJDBCのサービスをバックグラウンドで起動・停止

Hadoop
Hive

リンク

Hiveをjdbc経由で使う方法 - brfrn169の日記

現在、仕事でHadoopのサブプロジェクトであるHiveをいじってます。で、今回、JDBC経由で使ってみたので紹介します。 Hiveのインストールなどの仕方は以下を参照してください。 http://wiki.apache.org/hadoop/Hive/GettingStarted まず、Hiveサーバを立ち上げます。ポート番号はHIVE_PORTを設定しておけば、変更できます。デフォルトは10000です。 hive --service hiveserver で、以下のようなコードで、HiveにJDBCでアクセスできます。 String driverName = "org.apache.hadoop.hive.jdbc.HiveDriver"; try { Class.forName(driverName); } catch (ClassNotFoundException e) { e

arakash 2011/08/11

Hiveサーバの立ち上げ

Hadoop
Hive

リンク

CentOS に Hadoop, Pig, Hive, HBase をインストール - (ﾟ∀ﾟ)o彡 sasata299's blog

2010年07月12日20:12 CentOS に Hadoop, Pig, Hive, HBase をインストール CentOS5.4 に Hadoop, Pig, Hive, HBase をインストールする備忘録です。まずは JDK をインストールします。JDK6 以上が必要です。 # http://java.sun.com/javase/ja/6/download.html から JDK6 をダウンロード sudo sh jdk-6u21-linux-i586-rpm.bin java -version # 1.6.0_21 次に、yum で簡単にインストールするために、リポジトリを追加します。これでインストールが格段に楽になりますね。 wget http://archive.cloudera.com/redhat/cdh/cloudera-cdh3.repo sudo mv clo

arakash 2011/06/16

ClouderaでのHadoop、Hiveのインストール

Hadoop

リンク

本を読む GREE LabsでHadoopの話を聞いてきた

GREEさんで不定期でやってる、GREE Labsオープンソーステクノロジー勉強会で、Hadoopの話を聞いてきました。Hadoopは、つまりはGoogleのGFSやMapReduceのクローンだそうで、「Googleを支える技術」にトキメいた人なら必見ですね。発表は、技術面を簡潔に押さえたうえでわかりやすく、そのうえ実際の利用事例の話も聞けたのが面白かったと思います。最近のWeb系では、サービス面でもマネタイズ面でも、データマイニングとか行動ターゲティングとかがアツいんだなぁと思いました。プレゼン資料もust録画も公開されていますが、以下、自分のメモという意味で記録しておきます。 Hadoopについて（太田一樹） Preferred InfrastructureのCTOで、Sedueの作者。大量のデータの処理がテーマで、半分は酒でできているw。そんなこんなで、はてブ検索でも使われてい

arakash 2011/06/07

大規模データ分析をやってる人の話

Hadoop

リンク

Apache Mahout - Overview

For Creating Scala ble Performant Machine Learning Applications Download Mahout Apache Mahout(TM) is a distributed linear algebra framework and mathematically expressive Scala DSL designed to let mathematicians, statisticians, and data scientists quickly implement their own algorithms. Apache Spark is the recommended out-of-the-box distributed back-end, or can be extended to other distributed backe

arakash 2011/06/06

Hadoopを利用したOSSの機械学習ライブラリ。協調フィルタリングも作成可能

Hadoop

リンク

blog.katsuma.tv

前回、紹介したHiveについての続き。 Hiveは内部で扱うメタデータを「metastore」というデータで保持しています。テーブルやパーティションなどの情報、またレコードが実際に保持されてある場所などのメタデータは全部このmetastoreにまとまっています。このmetastoreは、次の3種類の方法で保存することができます。 Embeded metastore Local Metastore Remote Metastore Embeded metastore Embeded metastoreは主にテスト用途に利用されます。テスト用途なので、単一プロセスからの接続しか許可されていません。そのため、コンソールを複数起動して、それぞれのコンソールから別のMap&Reduceを走らせる…なんてことができません。ただし、Hiveは初期設定がこのEmbededモードになっているので、特に設定

arakash 2011/06/03

MySQLをHive metastoreに使用する方法

Hadoop

リンク

Hiveクエリチューニングメモ - 科学と非科学の迷宮

Hadoop本2版を買ったその一週間後にDeals of the day で半額セールやられて死にたくなったので腹いせに書くはじめにここに書いてあるのは全部参考リンク・文献からひっぱってきただけで、ほとんど全部検証してない。間違いがあればなるべく早めに更新するよう努力はするが、鵜呑みにして何が起きても自己責任で。 Hive のクエリチューニングに関するメモ書きである。以下のことは「書いていない」 Hadoop自体のチューニング Hive のクエリチューニング以外の話例えば、圧縮ファイルを Hive 上で扱うにはどうするかとか JOIN 一番左のテーブルに最も大きなテーブルを持ってくる一番左のテーブルがMRでいう入力データとして流れる。インナーテーブルのデータはメモリに保持される。同一 JOIN キー通常は 1 JOIN = 1 MR ジョブだが、同一の JOIN キーを使ってい

arakash 2011/06/02

色々チューニングメモ効果は未検証

Hadoop

リンク

分割可能なLZO圧縮をhadoopで使う

Twitterでは基本的にファイルはLZO圧縮しているようで， 3,4倍のストレージの節約分割可能 CPUは少ししか使わない IOバウンドのジョブは3,4倍の性能向上などのメリットがあると言っています．これは使わない手はないということで試してみました． clouderaのこのブログ記事を参考にして進めます． code.google.com/p/hadoop-gpl-compressionもありますが，Twitterが公開している分割可能なのを使います． http://github.com/kevinweil/hadoop-lzo 今回の環境はclouderaのamiをベースにしました． cloudera-ec2-hadoop-images/cloudera-hadoop-fedora-20090623-x86_64 ami-2359bf4 CDH3で，hadopoのバージョンは

arakash 2011/06/02

lzoのインストール・ビルド

Hadoop

リンク

Runtime error - Meta Search

Error message : Directory is not found or not writable (DATA_DIR) Directory is not found or not writable (DIFF_DIR) Directory is not found or not writable (BACKUP_DIR) Directory is not found or not writable (CACHE_DIR) Site admin: whitestar Copyright © 2006-2023 whitestar. All Rights Reserved. Icons powered by famfa mfam. PukiWiki 1.5.0 Copyright © 2001-2006 PukiWiki Developers Team. License is GPL

arakash 2011/06/02

ファイルの圧縮によるパフォーマンスチューニング

Hadoop

リンク

はてなブックマーク

タグ

関連タグで絞り込む (1)

Hadoopに関するarakashのブックマーク (9)

お知らせ

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

月間はてなブックマーク数ランキング（2024年6月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス