タグ

mapreduceに関するmasa1001のブックマーク (8)

  • Pasang Bola Online | Judi Bola Tanpa Blokir

    <div class="at-above-post-homepage addthis_tool" data-url="http://hugjp.org/2021/07/salah-pilih-agen-sbobet-bisa-sebabkan-berbagai-kerugian/"></div>Sbobet tentunya menjadi salah satu server judi online paling diminati oleh orang-orang yang gemar bermain judi online. Sbobet online via sbobet mobile. Main Game Online Sbobet Mobile.

  • Hadoopモデリング座談会#3 - 科学と非科学の迷宮

    第2回のレポートはこちら 概要 イベント名 Hadoopを中心とした分散環境での開発方法論・モデリング・設計手法等についての座談会(第3回) URL http://atnd.org/events/9098 日時 2010/11/19 18:30 - 21:00 場所 スター研修センター神田3F 関連リンク twitterハッシュタグ #hadoopmodeling Ust part1 part2 part3 Togetter http://togetter.com/li/70621 (私の記事は個人的なメモで、間違った部分も多いため併読することをおすすめします) 佐藤一郎先生(NII) @ichiro_satoh 分散環境の過去・現在・未来 モバイルエージェント、まずはデモから デモ テキストエディタ 2つのPCを用意、片方でエディタ起動 文字を適当に書きこんでから「Go」ボタンを押すと、

    Hadoopモデリング座談会#3 - 科学と非科学の迷宮
  • Hadoop MapReduceプログラムを解剖する

    オープンソース・ソフトウェア「Hadoop」のMapReduceジョブは、標準ではJavaで記述します(その他には、Pig、Hive、JAQLといったものがあります)。しかし、意外と初心者には分かりにくいと筆者は感じます。記事では、MapReduceジョブのサンプルコードを使って、できる限り正しくコードの意味を理解し、MapReduceへの入り口を示したいと思います。 HadoopでMapReduceを記述するときに使うAPIが、0.19から0.20に変わるところで新しくなっています。実は、現時点でHadoopプロジェクト体からでさえも、新APIを使ったサンプルが提示されていません。記事では、新しいAPIで筆者が書き直したサンプルを使って解説しますので、このサンプルは0.19以前のHadoopでは動かないことに注意してください。この記事は、0.20.2を使って検証し、解説しています。

  • 米Yahoo!、リアルタイムなMapReduceフレームワーク「S4」公開 | gihyo.jp

    2010年11月4日、米Yahoo! はリアルタイムにMapReduceを処理する「S4」をオープンソースとして公開しました。米Yahoo! ではMapReduceを行うフレームワークとして「Hadoop」を利用および開発していることで有名です。しかし、Hadoopはバッチのようないわゆるオフライン処理に向いており、リアルタイムに処理するような目的には適していません。S4はリアルタイムにMapReduceを処理する目的で開発され、すでに検索広告のパーソナライゼーションなど実際のサービスで利用されているようです。 S4はJavaで書かれており、Hadoopとはコードベースでは関係ありません。コードベースでは大きくCommunication LayerとCore Classesに分かれています。クラスタ管理にはZooKeeper、シリアライゼーションにはAvroまたはKryoを利用しています。

    米Yahoo!、リアルタイムなMapReduceフレームワーク「S4」公開 | gihyo.jp
  • MapReduceを使わない大規模分散データ更新システム「Percolator」 | gihyo.jp

    Google Researchにて「Large-scale Incremental Processing Using Distributed Transactions and Notifications」という論文が公開されました。GoogleはこれまでMapReduceにて大規模な処理を扱っていましたが、常にデータ全体に対して行わなければならず、小さな更新をたくさん行うような処理には向いていません。これに対し、Web検索エンジンのようにクローラがWebページを取得するたびに逐次的に処理を行い、短い間隔で検索インデックスの更新を可能にしたシステム「Percolator」を構築しました。論文ではPercolatorの概要やアーキテクチャ、導入による効果検証について書かれています。 Percolatorの特徴は、ペタバイト級のリポジトリに対してランダムアクセスが可能な点です。また、利用者側がリ

    MapReduceを使わない大規模分散データ更新システム「Percolator」 | gihyo.jp
  • そろそろHadoopについてひとこと言っておくか - nokunoの日記

    もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書くだけで、並列分散処理をすることができます。これは(1) データを実際に持つマシンにプログラムを配布する (2) MapとReduceをつなぐShuffleフェーズでキーをグループ化してソートする、(3) 障害時のフェールオーバーやレプリケーション、といった処理をフレームワーク側が受け持つことによって、プログラマ側の負担を減らすものです。GFSに対応するHDFSにはファイルをクラスタに分散して保存

  • Hadoopを使いこなす(1)

    まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。 また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed

    Hadoopを使いこなす(1)
  • Hadoopを使いこなす(2)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、 前回のHadoopの記事 に引き続き、MapReduceのカスタマイズポイントを解説していきます。 前回の記事の図や、表などを参照しながら読み進めていただければと思います。 MapperやReducerの流れの制御 Mapperの実行の流れは、デフォルトでは、初期化処理を行った後、map関数を繰り返し実行し、終了処理を行うようになっていますが、この流れ自体を制御することができます。 古いAPIでは、MapRunnerを通じてこの流れを制御できますが、0.20.0からの新しいAPIでは単純にMapperクラスのrun関数をオーバーライドすることで、行えます。 デフォルトのrun関数は以下の通りです。 public vo

    Hadoopを使いこなす(2)
  • 1