今度来日するOwen O’Malley氏のツイッターを見ていて、すごいテキストを見つけました. http://twitter.com/owen_omalley/status/9346904978 I love the fact that the free book about writing MapReduce apps uses the Hadoop type model instead of Google’s. http://bit.ly/dpMJ4T Data-Intensive Text Processing with MapReduce これはメリーランド大学准教授の方が作ってるそうです。 まだドラフトで正式にpublishするのは6月だそうですが、すごい完成度です。 Hadoop本みたいに具体的な使い方ではなく、MapReduceで実装可能なアルゴリズムについて。 転地イ
Hadoopのサンプルコードと言えばwordcountぐらいしか見かけないということで,転置インデックスのサンプルを作ってみました. 転置インデックス作成をMapReduceのモデルで表すと以下になります.google論文に習った擬似コードで表します. Map: 単語ごとに文書名を出力しています. 単語の分割をfor each wordとしていますが,日本語の場合単語の分割が問題ですが,今回は単純なN-gramで実装しました. map(String key, String value): //key: 文章名 //value: 文章の内容 for each word w in value: EmitIntermediate(w, key); Reduce: 重複を取り除くだけです.valuesでソートするとなお良いかもしれません reduce(String key, Iterato
HBaseのテーブルは、qualifierの中はデータ追加で自動的に増やせるが、family(列)はテーブルを一旦使用不可にして項目追加を行わないと増やせない。 したがって変化の無いものを列(family)にする方がいいんじゃないかと思う。 (試験名の方を可変にしておけば、模試とか補習(苦笑)とかにも対応できるし) 準備:テーブルの作成 今回のサンプル用に、HBase Shellからcreateコマンドを実行するか、HBaseのテーブル作成APIを使ってテーブルを作成しておく。 HBase Shellの場合 hbase(main):001:0> create 'student','personal','suugaku','kokugo','rika','shakai','eigo','total5' HBase APIの場合 package jp.hishidama.hadoop.hbas
What we want to do In this short tutorial, I will describe the required steps for setting up a single-node Hadoop cluster using the Hadoop Distributed File System (HDFS) on Ubuntu Linux. Hadoop is a framework written in Java for running applications on large clusters of commodity hardware and incorporates features similar to those of the Google File System and of MapReduce. HDFS is a highly fault
For Creating Scalable Performant Machine Learning Applications Download Mahout Apache Mahout(TM) is a distributed linear algebra framework and mathematically expressive Scala DSL designed to let mathematicians, statisticians, and data scientists quickly implement their own algorithms. Apache Spark is the recommended out-of-the-box distributed back-end, or can be extended to other distributed backe
だいぶ乗り遅れた感はあるけどHadoopを試してみた。 環境はvm上のubuntu-9.10 サンプルは使用せずにmapperとreducerはPythonで書いてみました。 まず準備。 javaの確認。なんかの時に入れたのでインスコは省く mochi@ubuntu-vm:~$ java -version java version "1.6.0_0" OpenJDK Runtime Environment (IcedTea6 1.6.1) (6b16-1.6.1-3ubuntu1) OpenJDK Client VM (build 14.0-b16, mixed mode, sharing) 次、ユーザ作成。グループもhadoopにしてログイン。 mochi@ubuntu-vm:~$ sudo adduser hadoop ・ ・ ・ mochi@ubuntu-vm:~$ su - had
HadoopフレームワークはJavaで書かれていますが、Hadoop上で動くプログラムはJavaで記述する必要はありません。PythonやC++(バージョン0.14.1以降)のような他の言語で開発することができます。しかし、Hadoopのホームページのドキュメントや最も重要なPythonのサンプルコードを読むと、PythonコードをJythonを使ってJavaのjarファイルに変換しないといけないように考えてしまいます。明らかに、この方法はきわめて不便で、もし、Jythonが提供していないPythonの機能を使っている場合はともて問題です。Jythonのアプローチのもう一つの問題は、Hadoopと連携させてPythonプログラムを書くオーバーヘットです。<HADOOP_INSTALL>/src/examples/python/WordCount.pyを見れば、言っていることがわかると思いま
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く