タグ

hadoopとMapReduceに関するmfhamのブックマーク (3)

  • MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    HadoopとMahoutにより、ビッグデータでも機械学習を行うことができます。Mahoutで実装されている手法は、全て分散処理できるアルゴリズムということになります。Mahoutで実装されているアルゴリズムは、ここに列挙されています。論文としても、2006年に「Map-Reduce for Machine Learning on Multicore」としていくつかのアルゴリズムが紹介されています。 そこで今回は、(何番煎じか分かりませんが自分の理解のためにも)この論文で紹介されているアルゴリズムと、どうやって分散処理するのかを簡単にメモしておきたいと思います。計算するべき統計量が、summation form(足し算で表現できる形)になっているかどうかが、重要なポイントです。なってない場合は、”うまく”MapReduceの形にバラす必要があります。 ※例によって、間違いがあった場合は随時

    MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家
  • MapReduce デザインパターン (5) - めもめも

    "Inverted Indexing" を行います。これは、文書番号がついた複数の文書がある時に、単語から文書を検索するための辞書を作成するものですが、最も簡単な辞書としては、 (Key, Value) = (単語, その単語を含む文書の文書番号のリスト) というデータの集まりが考えられます。この時、Value 部分のリストは、文書番号の順にソートされているものとします。 ※ もう少し実用的な例としては、(文書番号, 該当文書のページランク)というタプルのリストを Value に保存して、ページランクでソートしておくなどが考えられますが、ここでは、簡単のために文書番号だけで考えています。 例えば、Map 関数で文書中の単語をスキャンして、(Key, Value) = (単語, 文書番号) というデータを出力すると、Shuffle 処理によって、Reduce 関数には、自動的に (Key,

    MapReduce デザインパターン (5) - めもめも
  • ただいまHadoop勉強中

    5. Hadoopとは 大規模なデータを複数のコンピューター上で分散して処理するため のソフトウェアを開発している、オープンソースのプロジェクトです (※1)。 Hadoopプロジェクトによって開発されているソフトウェアは多数あり ますが、主となるのはMapReduceとHDFS(Hadoop Distributed File System)です。この2つはGoogleが公開したMapReduce(※2)と GFS(Google File System)(※3)の論文を参考に開発されていま す。 ※1 http://hadoop.apache.org/ ※2 http://labs.google.com/papers/mapreduce.html ※3 http://labs.google.com/papers/gfs.html 6. Hadoopのサブプロジェクト群 サブプロジェクト H

    ただいまHadoop勉強中
  • 1