タグ

2010年1月18日のブックマーク (4件)

  • Orange: HadoopでMapReduceを書く

    職場でI君からHadoopで(StreamではなくJavaを使って)MapReduceを書くのに適したチュートリアルが欲しいという話があったので、久しぶりにブログを書いてみることにした。 まぁ、Streamを利用すればもっと簡単に書けると思うのでJavaを利用する意味もあまりないと思う。 基的にはプログラム自体にコメントをしつこいぐらいに書いたので、そちらを参照してもらいたいのだけれどもこのプログラムの目的を簡単に説明すると、cabochaという日語構文解析プログラムの出力結果から単語の頻度を計算するものになっている。 cabochaの出力結果は下のようになっていて、 * 0 1D 0/1 0.00000000 ウィキペディア ウィキペディア ウィキペディア 名詞-一般 O に ニ に 助詞-格助詞-一般 O * 1 -1O 0/0 0.00000000 ようこそ ヨウコソ ようこそ

  • Hadoop + Luceneで分散インデクシング - moratorium

    Hadoop + Luceneで分散インデクシング 2008-08-27 (Wed) 1:07 Hadoop Hadoop (0.17系) + Lucene (2.3系) で検索用インデックスを分散インデクシングするコードを公開してみます。HDDに眠らせてるのはちょっともったいない。 いきなりソースコード。 package net.kzk9; import java.io.*; import java.util.*; import org.apache.hadoop.conf.*; import org.apache.hadoop.fs.*; import org.apache.hadoop.io.*; import org.apache.hadoop.mapred.*; import org.apache.hadoop.util.*; import org.apache.lucene.i

  • Map/Reduce Tutorial

    このドキュメントでは、チュートリアルとして役立つことを目的に、ユーザーが触れる Hadoop Map/Reduce のすべての側面についてまとめて説明します。 Hadoop のインストールと設定が済み、すでに実行されていることを確認してください。詳細については、以下を参照してください。 Hadoop を初めて使うユーザーは、Hadoop クイックスタートを参照してください。 大規模な分散クラスタを使うユーザーは、Hadoop クラスタセットアップを参照してください。 Hadoop Map/Reduce は、どこにでもあるごく普通のハードウェアで構成した (数千ノードの) 大規模なクラスタ上で、膨大なデータ (数テラバイトのデータセット) を並列処理するアプリケーションを簡単に記述できるようにするソフトウェアフレームワークです。 通常、Map/Reduce のジョブは、入力データセットを独立

  • 国外萝li?交免费观看_国偷自产在线_国偷自产偷拍

    温馨提醒:合理安排看片时间,享受健康生活!请收藏站网址   yoshimov.com   以免下次找不到!

    ang65
    ang65 2010/01/18