タグ

Hadoopと分散に関するseapig_dolphinのブックマーク (6)

  • Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。 今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。 例えば、今まで1台でやっていた、あるログ集計処理

    Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)
  • Hadoop合宿を行ないました - やさしいデスマーチ

    現在の会社(エスプランニング)では、今年から蘭越町に保養所でキャンプや様々なイベントを行っているのですが、その中の1つとして開発や研修などを行うために数日間の合宿を行うことがあります。今回、@niku_name と @irasally と3人でオライリーのHadoopを読み、分散処理についての基礎知識を深めるという目的で山篭りをしてきました。 尚、3人ともを8章まで予習してから臨みます。 1日目 朝から札幌は初雪で10cm近い積雪。はっきり言って死にたい気分で蘭越に出発。ニセコのちょっと先なので、札幌からは約2時間かかります。途中、倶知安で3日分の材を購入し、ランチ。広華という中華料理屋ですが、なかなかの味でした。 保養所に到着したのが1時前くらい。室温が4℃くらいなのでまずはウォームアップw 2時くらいから輪読会(エクストリームリーディング形式)で開始。夕方くらいまでかけて1〜2章

    Hadoop合宿を行ないました - やさしいデスマーチ
  • Hadoop、hBaseで構築する大規模分散データ処理システム

    CodeZine編集部では、現場で活躍するデベロッパーをスターにするためのカンファレンス「Developers Summit」や、エンジニアの生きざまをブーストするためのイベント「Developers Boost」など、さまざまなカンファレンスを企画・運営しています。

    Hadoop、hBaseで構築する大規模分散データ処理システム
  • 第12回 Hadoopのまとめ─MapReduce処理をやってみよう[完結編] | gihyo.jp

    HadoopはGoogleのGFSおよびMapreduceのオープンソースクローンとして誕生しました。インターネットコンテンツが、誰でもいつでもアクセスできるようになり利便性が上がる一方で、過去の資産も含めるとその情報量は今や膨大なものとなっています。そのような一方向に増え続けるデータへの対抗手段がGoogle技術であり、Hadoopであります。 前回まで5回にわたってhadoopの概要、導入、そして実際のMapReduce処理を行ってきましたが、実際のインターネット上のデータを使用することでより具体的にイメージが持てたのではないでしょうか。 Hadoopを言い表すキーワードとしては 分散ファイルシステム 容易な分散計算フレームワーク 特定の言語に依存しない作り が挙げられます。 分散ファイルシステム 分散ファイルシステムを用いることで、スケールアウトを前提とした設計となっており、拡張性

    第12回 Hadoopのまとめ─MapReduce処理をやってみよう[完結編] | gihyo.jp
  • Hadoop専用機「リンダ」を解剖

    NTTデータの「Lindacloud(リンダクラウド)」は、「Hadoop」に最適化したハードウエアを同社が自ら設計・製造したアプライアンスサーバーだ。機能をそぎ落として、低コストと低消費電力を追求したハードウエアは、大手クラウド事業者が使うサーバーによく似ている。Lindacloudが象徴する、サーバーの新潮流を探った。 Lindacloudが搭載するHadoopは、分散バッチ処理プログラムを開発するためのミドルウエアだ。複数のサーバーにデータを分散保存してバッチ処理を実行し、結果を集約するという機能を備える。 Lindacloudは、高さ42Uのラックに搭載した35台の専用サーバーユニットで構成する。合計で32個のプロセッサと、256Gバイトのメモリー、128T(テラ)バイトのハードディスクを搭載して、価格は800万円(図1)。インテグレーション費用も含まれていることを考えると、安価と

    Hadoop専用機「リンダ」を解剖
  • 大規模分散システムにおけるストレージの集約

    Sadayuki Furuhashi @frsyuki 将来の大規模分散システムでは、ストレージは集約してRAIDで並列化+ネットワークで繋げた方が、ローカルに単発のHDD(やSSD)を持つサーバを分散して設置するより、管理コストも勘案すると十分有利、という主張をしてみたいのだけども、ちょぃと厳しいかなぁ。 2011-02-21 19:13:45

    大規模分散システムにおけるストレージの集約
  • 1