タグ

mapreduceに関するseikennのブックマーク (3)

  • MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    HadoopとMahoutにより、ビッグデータでも機械学習を行うことができます。Mahoutで実装されている手法は、全て分散処理できるアルゴリズムということになります。Mahoutで実装されているアルゴリズムは、ここに列挙されています。論文としても、2006年に「Map-Reduce for Machine Learning on Multicore」としていくつかのアルゴリズムが紹介されています。 そこで今回は、(何番煎じか分かりませんが自分の理解のためにも)この論文で紹介されているアルゴリズムと、どうやって分散処理するのかを簡単にメモしておきたいと思います。計算するべき統計量が、summation form(足し算で表現できる形)になっているかどうかが、重要なポイントです。なってない場合は、”うまく”MapReduceの形にバラす必要があります。 ※例によって、間違いがあった場合は随時

    MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家
  • 【IT用語】MapReduceとHadoop

    IT用語】MapReduceとHadoop 金 裕可里, 木田 直人, 三木光範, 廣安知之 ISDL Report  No. 20091306001 2009年 7月 2日 1  はじめに 近年, Webページの検索や, 地図の検索を行うためにGoogleのサービスが頻繁に利用されており, 必要不可欠なものとなっている.Web検索は, 莫大なデータを扱うのにも関わらず, 瞬時に検索結果を表示させることを実現している. この事実の裏側では, 想像以上に膨大な計算や多数のコンピュータの働きがある. Googleはその超巨大なコンピュータネットワークを用いて, 膨大なデータ処理を分散化している. そのため, 大量のデータを瞬時に処理することが可能になっている. そのGoogleの分散処理システムはMapReduce[1]と呼ばれており, Googleの検索技術を支えるコア技術である.

  • グーグルによるMapReduceサービス「BigQuery」が登場。SQLライクな命令で大規模データ操作

    「数兆件のデータも対話的に、高速に分析できる」。グーグルは5月19日にこのような表現で新しいサービス「BigQuery」の登場を紹介するエントリを、ブログにポストしています。 グーグルが公開したBigQueryは、Hadoopやデータウェアハウスなどを用いて多くの企業が行おうとしている大規模データ(いわゆる「Big Data」)の分析を、グーグルのクラウドで可能にします。利用者はGoogle Storage経由で大規模データを転送し、SQLライクな命令によって抽出や分析を行います。 まるでグーグルが大規模データ処理のMapReduceをホスティングし、その機能をサービスとして提供するようなものがBigQueryといえます(ただし公開された「BigQuery」の説明には、内部でMapReduceを利用しているのかどうかの記述はないのため、MapReduce「的」なサービスと表現すべきかもしれ

    グーグルによるMapReduceサービス「BigQuery」が登場。SQLライクな命令で大規模データ操作
  • 1