タグ

分散処理に関するionisのブックマーク (2)

  • CDP:Write Proxyパターン - AWS-CloudDesignPattern

    解決したい課題 インターネットストレージは一般的に、読み込みに対するキャパシティーやデータの耐久性が非常に高い。しかし、冗長性を保つために複数ローケーションに書き込んでいるほか、HTTPプロトコルでクライアントと通信しているので、書き込み速度が比較的劣るという性質がある。大量データをインターネットストレージに書き込む場合に、パフォーマンスが問題になることがある。 クラウドでの解決/パターンの説明 クライアントからインターネットストレージに直接データを転送するのではなく、仮想サーバーでデータを受け、その仮想サーバーからインターネットストレージへ転送する。クライアントから仮想サーバーへの転送では、HTTPよりも高速なプロトコル(例えばUDPベースのプロトコル)を使うことができる。また、小さいサイズのファイルが大量にある場合は、クライアント側で一度アーカイブし、仮想サーバーに転送後に解凍してイン

  • Hadoopを使いこなす(1)

    まず、 1 の入力ファイルを分割する方法は、InputFormatクラスの、getSplits関数を上書きすることで、カスタマイズできます。 また、 3 のInputSplitから、KeyとValueを抽出する処理も、InputFormatクラスを通じてカスタマイズできます。 InputFormatのgetRecordReader関数を通じて、RecordReaderクラスを生成するのですが、これに任意のRecordReaderクラスを指定すればOKです。 2 のMap処理ですが、ユーザが指定したMapperクラスの処理を実行します。 Mapperクラスは、MapRunnerクラスを通じて、初期化処理、map関数を繰り返す過程、終了処理といった一連の流れを実行します。 MapRunnerクラスをカスタマイズすれば、こうした流れを制御することができます。 0.20.0からの新しいMapRed

    Hadoopを使いこなす(1)
    ionis
    ionis 2010/03/15
    絵とかあって、分かりやすい。入門に最適かも???
  • 1