タグ

mapreduceに関するnorizo3のブックマーク (4)

  • 入門並列プログラミングとMapReduce - Yoshito Komatsu's Blog

    この文書はGoogleの「Introduction to Parallel Programming and MapReduce」を日語に翻訳したものです。 原文のライセンスに従い、この文書はクリエイティブ・コモンズ 表示 2.5 一般 ライセンスの下に提供されています。 なお、誤字脱字、誤訳などありましたらぜひコメント欄などでご指摘ください。 対象読者と前提条件 このチュートリアルは並列プログラミングとMapReduceプログラミングモデルの基をカバーします。 前提として、C++Javaのような言語と、データ構造とアルゴリズムについての相当なプログラミング経験を必要とします。 逐次プログラミングと並列プログラミング コンピューティングの初期には、プログラムは逐次プログラムでした。 逐次プログラムとは、一続きの命令で書かれたプログラムのことで、そこでは各命令はひとつづつ順番に実行されま

  • MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    HadoopとMahoutにより、ビッグデータでも機械学習を行うことができます。Mahoutで実装されている手法は、全て分散処理できるアルゴリズムということになります。Mahoutで実装されているアルゴリズムは、ここに列挙されています。論文としても、2006年に「Map-Reduce for Machine Learning on Multicore」としていくつかのアルゴリズムが紹介されています。 そこで今回は、(何番煎じか分かりませんが自分の理解のためにも)この論文で紹介されているアルゴリズムと、どうやって分散処理するのかを簡単にメモしておきたいと思います。計算するべき統計量が、summation form(足し算で表現できる形)になっているかどうかが、重要なポイントです。なってない場合は、”うまく”MapReduceの形にバラす必要があります。 ※例によって、間違いがあった場合は随時

    MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家
  • グーグル、フル機能のMapReduceをGoogle App Engineで提供へ

    グーグルは同社のクラウドサービスであるGoogle App Engineで、フル機能のMapReduce機能を提供することが同社のイベントGoogle I/O 2011で明らかにしました。 これまでGoogle App EngineではMapReduceを構成する「Map」「Shuffle」「Ruduce」の3つのうち、Mapperの機能の提供が行われてきました。 Google I/O 2011で行われたセッション「App Engine MapReduce」では、MapReduceを構成するすべての機能の提供が行われることが発表されています。 セッションのポイントを紹介しましょう。 App Engine MapReduce App EngineエンジニアリングチームのMike Aizatsky氏。 MapReduceは数年前にグーグルが開発した処理。社内ではほとんどあらゆるチームがこの処理

    グーグル、フル機能のMapReduceをGoogle App Engineで提供へ
  • Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。 今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。 例えば、今まで1台でやっていた、あるログ集計処理

    Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)
  • 1