タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

分散処理に関するtztのブックマーク (10)

  • Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。 今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。 例えば、今まで1台でやっていた、あるログ集計処理

    Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)
  • オピニオン:マルチプロセッサ・コンピューティングの課題は、単に技術的な問題の域を越える

    Spring BootによるAPIバックエンド構築実践ガイド 第2版 何千人もの開発者が、InfoQのミニブック「Practical Guide to Building an API Back End with Spring Boot」から、Spring Bootを使ったREST API構築の基礎を学んだ。このでは、出版時に新しくリリースされたバージョンである Spring Boot 2 を使用している。しかし、Spring Boot3が最近リリースされ、重要な変...

    オピニオン:マルチプロセッサ・コンピューティングの課題は、単に技術的な問題の域を越える
  • HTTPベースによるMapReduceフレームワーク·HTTPMR MOONGIFT

    大規模なデータを分散処理するための技術と言えばMapReduceだ。通常の企業では難しい、数万台のネットワークコンピューティングを駆使したデータ処理を可能にするGoogleの根幹をささせる一技術になっている。 処理の一覧 そんなMapReduceはオープンソースで実装されるものもあるが、格的に実装するにはハードウェアやインフラの存在が必要になる。だが、これを使えばハードウェアも無用でMapReduceを体感できる。 今回紹介するオープンソース・ソフトウェアはHTTPMR、Google App Engine上で動作するMapReduce実装だ。 HTTPMRはGoogle App Engine上で動作するライブラリで、HTTPベースでMapReduceのように分散処理を行えるようになる。リクエストはランダムに選ばれたコンピュータ上で実行される。各リクエストは数秒でタイムアウトするようになっ

    HTTPベースによるMapReduceフレームワーク·HTTPMR MOONGIFT
  • グーグルデータセンターの内側--明らかにされた独自性

    サンフランシスコ発--先日、Googleの秘密が少しだけ明らかになった。 Googleがデータセンター業務を公開することは滅多にないが、米国時間5月28日、GoogleフェローであるJeff Dean氏が業務の一部を話題に取り上げた。28日に当地で開催された「Google I/O」カンファレンスの超満員の聴衆に対して講演を行ったDean氏は、Googleのインフラがいかに独特かを説明しながら、Googleの秘密を少しだけ明らかにした。 Googleはごく普通のサーバを使用している。プロセッサ、ハードドライブ、メモリも同様だ。 一方、Dean氏は、1800台のサーバで構成されるクラスタは、たいしたものではないというわけではないが、ごくありふれていると考えているようだ。しかし、Googleがそのようなハードウェアを使って、700〜1000台のサーバが使われる一般的な検索クエリに0.5秒以下で応

    グーグルデータセンターの内側--明らかにされた独自性
  • 大規模Linuxクラスタにおける共有メモリと分散メモリ | OSDN Magazine

    ITを利用したビジネスの現場ではLinuxクラスタを構築するのが一般的になっているが、クラスタを使って問題を解決する場合、決まって議論にのぼる概念がある。共有メモリと分散メモリの違いも、その1つである。 NASAエイムズ研究センターのTerascale ProjectリーダーBob Ciotti氏と、SGIのAltixプロダクトマネージャJason Pettit氏によると、共有メモリと分散メモリでは扱う問題が異なるのだそうだ。高度な問題に効率よく取り組むためには、どんなコンピューティングリソースが必要なのか決めなければならない。これは、問題の内容を理解して初めて可能になる。 共有メモリマシンには、ノード、システムディスク、ネットワーク接続がそれぞれ1つずつ存在する。プロセッサを128個あるいは256個搭載したものもあるが、エンドユーザにとってはスループットの高い単一のLinuxマシンにしか

    大規模Linuxクラスタにおける共有メモリと分散メモリ | OSDN Magazine
  • JSPP2002レポート

  • グーグルとアマゾンのクラウドの違い ― @IT

    2008/05/29 米グーグルは現地時間の5月27日、これまでプレビュー版として一部ユーザーに公開していたWebアプリケーションプラットフォームサービス「Google App Engine」(GAE)を、一般向けに公開すると発表した。同時に2008年後半に導入予定の料金体系も明らかにした。 これまで通り500MBのストレージ、月間500万ページビューまでの利用であれば無料。それを超える分については、1CPUコア1時間当たり10~12セント、1GB・1カ月当たり15~18セントかかる。通信帯域の月額は受信について1GB当たり9~11セント。送信については1GB当たり11~13セントとなっている。 この価格設定はAmazon Web Services(AWS)と極めて類似している。例えば「Amazon EC2」(Elastic Compute Cloud)は、1.7GBのメモリ、1CPUコア

  • MapReduce - naoyaのはてなダイアリー

    "MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること

    MapReduce - naoyaのはてなダイアリー
  • Hadoop、hBaseで構築する大規模分散データ処理システム:CodeZine

    はじめに この連載では、大規模分散計算フレームワーク「Hadoop」と、その上につくられた大規模分散データベース「hBase」の仕組みと簡単なサンプルアプリケーションを紹介します。HadoopとhBaseは、Googleの基盤ソフトウェアのオープンソースクローンです。機能やコンセプトについては、Googleが発表している学術論文に依っています。 これらの学術論文によると、Googleでは大規模分散ファイルシステム「Google File System」、大規模分散計算フレームワーク「MapReduce」、大規模分散データベース「BigTable」、分散ロックサービス「Chubby」という4つのインフラソフトウェアが使われています。 図1にGoogleの基盤技術間の依存関係、そしてそれに対応するOSSの対応関係を示しました。まずは対応するGoogleの基盤技術それぞれの機能や特徴をざっくりと

  • MOONGIFT: » C++製の分散ストレージシステム「cagra」:オープンソースを毎日紹介

    オープンソースの分散化ファイルシステムで代表例というとMogileFSが挙げられると思う。HTTPでアクセスでき、簡単に信頼性の高い分散化ファイルシステムが構築できる。ただし、基Perlからの扱いになっており、Ruby向けのライブラリも存在するが全ての機能を活用できる訳ではない。 クライアント側 もっと手軽に利用できる分散化ファイルシステムが必要だ。それがこれだ。 今回紹介するオープンソース・ソフトウェアはcagra、C++製の分散ストレージシステムだ。 cagraは日製のソフトウェアで、memcachedのような手軽さで分散ストレージシステムを構築できる。memcachedとの大きな違いは複数ノードを利用できる点にある。各データに対して指定したノード数でのレプリケーションが可能になっているので信頼性を高めることができる。 サーバ側 現時点ではオンメモリストレージのみだが、ファイルシ

    MOONGIFT: » C++製の分散ストレージシステム「cagra」:オープンソースを毎日紹介
  • 1