タグ

2012年8月1日のブックマーク (11件)

  • Java vs Python on Hadoop

    aidiary
    aidiary 2012/08/01
    どの言語で書くか?
  • Welcome to Apache Hadoop!

    Apache Hadoop プロジェクトでは、信頼性の高いスケーラブルな分散コンピューティングのためのオープンソースソフトウェアを開発しています。Hadoop には以下のサブプロジェクトがあります。 Hadoop Common: Hadoop のほかのサブプロジェクトをサポートする共通のユーティリティです。 Avro: 各種スクリプト言語に動的に組み込み可能なデータ直列化システムです。 Chukwa: 大規模分散システムを管理するためのデータ収集システムです。 HBase: 巨大テーブル用の構造化データストレージをサポートするスケーラブルな分散データベースです。 HDFS: アプリケーションデータに対して高いスループットでのアクセスを可能にする分散ファイルシステムです。 Hive: データ・サマライゼーションやアドホックなクエリー操作を可能にするデータウェアハウス・インフラストラクチャです

  • Hadoop入門者向けの注意点とかコツ(1) - 犬も歩けば棒も歩く

    修論やっと終わりました…死ぬかと思った。Hadoop MapReduceを利用してちょっとしたことをやったんですが、いろんなところで躓きました。Hadoopには「簡単 大規模 分散処理 なんだかすごい魔法の技術」っていうイメージを抱いていましたが、ぜんぜんそんなことないです。実装すごい大変でした。これからHadoopでMapReduceをやってみようって人のために僕が躓いた所をまとめておきます。 最初に読むべきドキュメント 公式のチュートリアルを読みましょう。バージョンごとにドキュメントが違うので注意してください。英語が苦手だなって人は、日語のドキュメントを読みましょう(ただし0.20まで)。でもHadoopはトラブルがガンガン起こると思うので、そんなときに英語も頑張って読むぞって人じゃないとHadoopでプログラミングするのは難しいです。 さらに詳しいドキュメントが欲しければオライリー

    Hadoop入門者向けの注意点とかコツ(1) - 犬も歩けば棒も歩く
  • 1台構成のHadoopを30分で試してみる(Ubuntu + Cloudera)

    (参考) Cloudera社のHadoopパッケージの情報 http://archive.cloudera.com/docs/ 必要なもの ・UbuntuやdebianのLinux環境1台(手元ではUbuntu Server 11.04/10.04/9.10/8.04, debian 5あたりで試していますが、他バージョンでも大丈夫だと思います) ・インターネット接続 ・Sun(Oracle)のJavaパッケージ(aptでインターネットからインストール) ・Cloudera社のCDH3のHadoopパッケージ(aptでインターネットからインストール) 作業手順 1. インストール: Linux環境にて、rootで作業します。 sudo su 1-1. Sun(Oracle)のJavaを入れます。(Sun(Oracle)のものが必要です。) ※ ここで、ubuntu 10や11の人は/etc

    1台構成のHadoopを30分で試してみる(Ubuntu + Cloudera)
  • MacOSX(Lion)でHadoop環境を試す - 気まぐれな備忘録

    内容 ほぼHadoop on MacOSXの内容を参考にさせていただきました。 MacOSX:10.7.2 Lion Hadoopバージョン:hadoop-0.20.205.0 動作モード:擬似分散モード HADOOP_HOME:/usr/local/hadoop アプリケーションアカウント:hadoop (RecordName:_hadoop) グループID/ユーザーID:300 ホームディレクトリ:/var/lib/hadoop Hadoopのダウンロードと展開 apache hadoopのダウンロードページから最新バージョンをダウンロード。 私はhadoop-0.20.205.0をダウンロードしました。 hadoop-0.20.205.0.tar.gzを展開 場所は/usr/localに限らずどこでも。 cd /usr/local sudo tar zxvf /path/to/had

    MacOSX(Lion)でHadoop環境を試す - 気まぐれな備忘録
  • Hadoop on MacOSX

    MacOSXにHadoopを擬似分散モードで動作できるようにインストールした時の記録です。 利用した環境は次の通りです。 MacOSX Snow LeopardHadoop 0.20.2 また、参考にしたページは次のページです。 Hadoop, HDFS and Hbase on Ubuntu & Macintosh LeopardHBase/Hadoop on Mac OS XこのページにはHBaseのインストールまで記載されていますが、まだそこまでやっていないので、機会があればということで。 ダウンロードダウンロードページから、適当なミラーサイトを選んでダウンロード。 /usr/local に展開します。 $ pwd /usr/local $ sudo tar zxvf /path/to/hadoop-0.20.2.tar.gz $ sudo ln -s hadoop-0.20.2 h

  • hadoopの話とpythonでデータマイニングをする話 - gumi Engineer’s Blog

    gumiの粟飯原です。 データマイニングやってます。しかしながら最近はあまりデータをいじる時間がなく社内でプレゼンばかりする日々で、社内でも私がなにやってるのかわからないというもっぱらの評判。そこで今回は一応データ解析もやってはいるんだよということを内外に主張するためにもデータマイニングの話をしようと思います。 アプリの基的な日々の統計データ取得などは別の方々はやられているので、私からはhadoopを使った大規模解析の話や、そこで得られたデータを分析する環境の話をしたいと思います。コードを併記した具体例などは今回載せられないのですが、今後また紹介していければと思います。 大規模データの解析 日々のログ解析やDB解析はcronによる処理で毎朝レポーティングを行っているのですが、新しい情報を過去のアクセスログからまとめてどかんと取得したいと言う時はHadoopによる大規模解析を実行しています

    hadoopの話とpythonでデータマイニングをする話 - gumi Engineer’s Blog
  • Python code for Earth mover's Distance

    aidiary
    aidiary 2012/08/01
    PythonのEMD実装は?
  • EMD

    The Earth Mover's Distance The Earth Mover's Distance (EMD) is a method to evaluate dissimilarity between two multi-dimensional distributions in some feature space where a distance measure between single features, which we call the ground distance is given. The EMD ``lifts'' this distance from individual features to full distributions. Intuitively, given two distributions, one can be seen as a mas

    aidiary
    aidiary 2012/08/01
  • Code for the Earth Movers Distance (EMD)

    This is an implementation of the Earth Movers Distance, as described in [1]. The EMD computes the distance between two distributions, which are represented by signatures. The signatures are sets of weighted features that capture the distributions. The features can be of any type and in any number of dimensions, and are defined by the user. The EMD is defined as the minimum amount of work needed to

    aidiary
    aidiary 2012/08/01
    Earth Mover's DistanceのC実装、Pythonでラッパーするとよい
  • scpとrsyncの所作の違い。気をつけるところ - さよならインターネット

    scpでダサい作業していたら、riywoさんのポストを見つけて質問してみた。 そしてscpをパラレルにしてしまったのが判断ミスだったなー。けど検証する為には時間なかったから仕方ないな 2012-07-27 18:36:17 via YoruFukurou scp使わない派 2012-07-27 18:36:40 via YoruFukurou @riywo お、何使う派ですか? 2012-07-27 18:38:13 via YoruFukurou to @riywo @kenjiskywalker rsyncですね。scpはアトミックに更新できないので。 2012-07-27 18:38:31 via YoruFukurou to @kenjiskywalker 複数のファイルとかはrsync使うけど ギガバイトくらすの大きいファイルはscpで使い分けてた。 あれ、何で使い分けてるんだっ

    aidiary
    aidiary 2012/08/01