[B! hadoop] [7ページ] showyouのブックマーク

http://www.umiacs.umd.edu/~jimmylin/MapReduce-book-final.pdf

showyou 2010/05/06

6章にEMやHMMについて載ってて、HMMはMapReduceのサンプルコードがある

hadoop

リンク

今度来日するOwen O’Malley氏のツイッターを見ていて、すごいテキストを見つけました． http://twitter.com/owen_omalley/status/9346904978 I love the fact that the free book about writing MapReduce apps uses the Hadoop type model instead of Google’s. http://bit.ly/dpMJ4T Data-Intensive Text Processing with MapReduce これはメリーランド大学准教授の方が作ってるそうです。まだドラフトで正式にpublishするのは6月だそうですが、すごい完成度です。 Hadoop本みたいに具体的な使い方ではなく、MapReduceで実装可能なアルゴリズムについて。転地イ

showyou 2010/05/06

EMアルゴリズムも書いてるみたい

hadoop

リンク

HadoopでN-gramで転置インデックス作成

Hadoopのサンプルコードと言えばwordcountぐらいしか見かけないということで，転置インデックスのサンプルを作ってみました．転置インデックス作成をMapReduceのモデルで表すと以下になります．google論文に習った擬似コードで表します． Map: 単語ごとに文書名を出力しています．単語の分割をfor each wordとしていますが，日本語の場合単語の分割が問題ですが，今回は単純なN-gramで実装しました． map(String key, String value): //key: 文章名 //value: 文章の内容 for each word w in value: Em itIntermediate(w, key); Reduce: 重複を取り除くだけです．valuesでソートするとなお良いかもしれません reduce(String key, Iterato

showyou 2010/05/06

hadoop
KVS

リンク

Hadoop HBase操作サンプル(Hishidama's Hadoop HBase sample Memo)

HBaseのテーブルは、qualifierの中はデータ追加で自動的に増やせるが、family（列）はテーブルを一旦使用不可にして項目追加を行わないと増やせない。したがって変化の無いものを列（family）にする方がいいんじゃないかと思う。（試験名の方を可変にしておけば、模試とか補習(苦笑)とかにも対応できるし）準備：テーブルの作成今回のサンプル用に、HBase Shellからcreateコマンドを実行するか、HBaseのテーブル作成APIを使ってテーブルを作成しておく。 HBase Shellの場合 hbase(main):001:0> create 'student','personal','suugaku','kokugo','rika','shakai','eigo','total5' HBase APIの場合 package jp.hishidama.hadoop.hbas

showyou 2010/04/23

hadoop
KVS

リンク

Running Hadoop On Ubuntu Linux (Single-Node Cluster) - Michael G. Noll

What we want to do In this short tutorial, I will describe the required steps for setting up a single-node Hadoop cluster using the Hadoop Distributed File System (HDFS) on Ubuntu Linux. Hadoop is a framework written in Java for running applications on large clusters of commodity hardware and incorporates features similar to those of the Google File System and of MapReduce. HDFS is a highly fault

showyou 2010/04/08

Running a MapReduce jobの前まで読んだ

hadoop

リンク

Apache Mahout - Overview

For Creating Scala ble Performant Machine Learning Applications Download Mahout Apache Mahout(TM) is a distributed linear algebra framework and mathematically expressive Scala DSL designed to let mathematicians, statisticians, and data scientists quickly implement their own algorithms. Apache Spark is the recommended out-of-the-box distributed back-end, or can be extended to other distributed backe

showyou 2010/03/25

リンク

HadoopでPython使ってテストしてみた - その１ - もちおのWEBアプリ開発日記

だいぶ乗り遅れた感はあるけどHadoopを試してみた。環境はvm上のubuntu-9.10 サンプルは使用せずにmapperとreducerはPythonで書いてみました。まず準備。 javaの確認。なんかの時に入れたのでインスコは省く mochi@ubuntu-vm:~$ java -version java version "1.6.0_0" OpenJDK Runtime Environment (IcedTea6 1.6.1) (6b16-1.6.1-3ubuntu1) OpenJDK Client VM (build 14.0-b16, mixed mode, sharing) 次、ユーザ作成。グループもhadoopにしてログイン。 mochi@ubuntu-vm:~$ sudo adduser hadoop ・・・ mochi@ubuntu-vm:~$ su - had

showyou 2010/03/25

リンク

Emerge Technology: [翻訳]Hadoopで動くPythonのMapReduceプログラムを書く

HadoopフレームワークはJavaで書かれていますが、Hadoop上で動くプログラムはJavaで記述する必要はありません。PythonやC++(バージョン0.14.1以降)のような他の言語で開発することができます。しかし、Hadoopのホームページのドキュメントや最も重要なPythonのサンプルコードを読むと、PythonコードをJythonを使ってJavaのjarファイルに変換しないといけないように考えてしまいます。明らかに、この方法はきわめて不便で、もし、Jythonが提供していないPythonの機能を使っている場合はともて問題です。Jythonのアプローチのもう一つの問題は、Hadoopと連携させてPythonプログラムを書くオーバーヘットです。<HADOOP_INSTALL>/src/examples/python/WordCount.pyを見れば、言っていることがわかると思いま

showyou 2010/03/11

リンク

はてなブックマーク

タグ

関連タグで絞り込む (28)

hadoopに関するshowyouのブックマーク (129)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第4週）

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス