タグ

hadoopに関するteahutのブックマーク (13)

  • yebo blog: Google GFSライクなグローバルファイルシステムKFS

    2007/10/16 Google GFSライクなグローバルファイルシステムKFS Skrentablogによると、Googleの検索技術を支える根幹技術Google File Systemがある。構造の概略は論文になっているが、Linux上に実装されているといっても、そのソースコードは公開されておらずプロプライアタリになっている(GFSを他に公開するとは思えないが)。そこで、Google File SystemGoogle Map ReduceをJavaで実装しようというプロジェクトがApache内にあり、Hadoopの開発を進めている(HDFS: Hadoop Distributed FilesystemMapReduceの実装が進んでいる)。また、これをベースにKosmix社がKFSというファイルシステムをApache Licenseで公開しているとか。KFSは現在アルファリリ

    teahut
    teahut 2009/05/21
    >(Hadoop) をベースにKosmix社がKFSというファイルシステムをApache Licenseで公開しているとか。KFSは現在アルファリリースの段階だが、一通り動くようだ。
  • Amazon Elastic MapReduceを使ってみた - moratorium

    Amazon Elastic MapReduceを使ってみた 2009-04-03 (Fri) 3:06 Amazon EC2 連日のEC2ネタです。日、AmazonからElastic MapReduceというサービスがリリースされました。大規模データ処理技術が一気に民間の手に下りてくる、まさに革命的なサービスだと思います。 Amazon Elastic MapReduce Amazon ElasticMapReduce 紹介ビデオ With Hadoop, Amazon Adds A Web-Scale Data Processing Engine To Its Cloud Computer by techcrunch.com Elastic MapReduceは、Googleの基盤技術の一つであるMapReduceを時間単位課金で実行できるサービスです。MapReduceについては以

    teahut
    teahut 2009/04/03
    >S3を利用しているので、GFSの本来の良さで有るデータのローカリティを考慮したコンピューテーションが行えません。入力と出力に必ずネットワーク転送が挟まってしまいます。
  • IBMが都内にクラウド検証施設、Hadoopのデモも実施 ― @IT

    IBMは8月1日、都内の日IBM 晴海事業所内にクラウド・コンピューティングの検証施設「IBM クラウド・コンピューティング・センター@Japan」を開設したと発表した。クラウド・コンピューティングのビジネスメリットを顧客に提案したり、新しいシステム環境を検証する場として活用する。IBMによるとクラウドの検証施設の開設は日で初めて。 IBMは世界各地でクラウド・コンピューティングの検証施設を設けていて、東京の開設は5番目。会見した米IBMのIBMソフトウェア・グループ ハイ・パフォーマンス・オンデマンド・ソリューションズ担当ストラテジー・バイス・プレジデントのウィリー・チゥ(Willy Chiu)氏は「このようなセンターを世界中に開設することで、クラウドのメリットを知ってもらい、顧客のビジネスをサポートしたい」と話した。「センターの数は今後数カ月で2倍にしたい」とも述べ、IBMとし

    IBMが都内にクラウド検証施設、Hadoopのデモも実施 ― @IT
    teahut
    teahut 2008/08/03
    >エンタープライズ・クラウドはセキュリティやモニタリング、データ保全性などこれまでIBMが蓄積してきた技術で、Webクラウドを補強する... Hadoopのデモンストレーション(10台)
  • Hadoop Streaming - naoyaのはてなダイアリー

    id:naoya:20080511:1210506301 のエントリのコメント欄で kzk さんに教えていただいた Hadoop Streaming を試しています。 Hadoop はオープンソースの MapReduce + 分散ファイルシステムです。Java で作られています。Yahoo! Inc のバックエンドや、Facebook、Amazon.com などでも利用されているとのことです。詳しくは http://codezine.jp/a/article/aid/2448.aspx (kzk さんによる連載記事)を参照してください。 Hadoop Streaming 記事にもあります通り、Hadoop 拡張の Hadoop Streaming を使うと標準入出力を介するプログラムを記述するだけで、Hadoop による MapReduce を利用することができます。つまり、Java 以外

    Hadoop Streaming - naoyaのはてなダイアリー
    teahut
    teahut 2008/05/14
    >Hadoop Streaming を使うと標準入出力を介するプログラムを記述するだけで、Hadoop による MapReduce を利用することができます。
  • HBase Leads Discuss Hadoop, BigTable and Distributed Databases

    InfoQ Software Architects' Newsletter A monthly overview of things you need to know as an architect or aspiring architects. View an example Memorial Day Sale: Save up to 60% on InfoQ Dev Summit Boston (June 24-25)

    HBase Leads Discuss Hadoop, BigTable and Distributed Databases
    teahut
    teahut 2008/05/01
    HBaseは効率的なランダムアクセスをサポートしてるので,transactionalな使い方もできる.MySQLより高速だ.HDFSはappend-recordをサポートしてなかったためデータが失われることがあったが,0.18で解決される見込みだ
  • Hadoop、hBaseで構築する大規模分散データ処理システム:CodeZine

    はじめに この連載では、大規模分散計算フレームワーク「Hadoop」と、その上につくられた大規模分散データベース「hBase」の仕組みと簡単なサンプルアプリケーションを紹介します。HadoopとhBaseは、Googleの基盤ソフトウェアのオープンソースクローンです。機能やコンセプトについては、Googleが発表している学術論文に依っています。 これらの学術論文によると、Googleでは大規模分散ファイルシステム「Google File System」、大規模分散計算フレームワーク「MapReduce」、大規模分散データベース「BigTable」、分散ロックサービス「Chubby」という4つのインフラソフトウェアが使われています。 図1にGoogleの基盤技術間の依存関係、そしてそれに対応するOSSの対応関係を示しました。まずは対応するGoogleの基盤技術それぞれの機能や特徴をざっくりと

    teahut
    teahut 2008/05/01
    >Google基盤ソフトウェアのオープンソースクローンを使ってみる
  • TechCrunch Japanese アーカイブ � ヤフーが検索にHadoop採用、グーグルっぽく脱皮を図る

    Since April, a hacker with a history of selling stolen data has claimed a data breach of billions of records — impacting at least 300 million people — from a…

    TechCrunch Japanese アーカイブ � ヤフーが検索にHadoop採用、グーグルっぽく脱皮を図る
    teahut
    teahut 2008/02/21
    >サイズ:300 TB(圧縮後), コア:1万, Disk:5PB... Google MapReduceインフラ情報と比べてみる: データ処理量 1日20PB, 圧縮データで月間1万4000TB
  • カイハツニッキ(2008-02-12)

    _ [ソフトウェア] hadoop + hypertable 先日話題になっていたHypertableなのですが、まさにこういうものが欲しいなー、と思ってflaredとかを作り始めてみたわけなので興味津々眺めてみました...。そのうち4台くらいに入れて負荷かけてみたいのですがまだちょっと時間が取れないのでまずはドキュメントを眺めてみました。 そもそもHypertableができること、というのはよくある(?)key-value分散ストレージです(が、単純にkeyからvalueを引くというオペレーションよりは複雑あるいは細かい処理が可能なようです)。 そのHypertableは、Range Serverとよばれる実際のデータを格納するn個のサーバプロセスと、Master Serverとよばれる1つのコントロールプロセス、そしてHyperspaceというn + 2個のプロセスによって成り立つのだ

    teahut
    teahut 2008/02/13
    >Range Serverというデータを格納するnのプロセス、Master Serverという1つのコントロールプロセス、Hyperspaceというn+2のプロセス... Master以外にもHyperspaceを通じてMETADATAにアクセスしてkey-Range Serverを取得... 分散や冗長化はDFSレイヤ
  • Googleの誇る巨大データベースBigTableのオープンソースクローン「Hypertable」

    Googleのあの巨大な検索システムなどを支えるデータベース「BigTable」は書き込みが毎秒700MB、読み込みが毎秒18GBという化け物システムなのですが、それのクローンを作るプロジェクト「Hypertable」というのがあるようです。既にバージョンが今年の2月4日に「0.9 Alpha」まで到達しており、超巨大な分散データベースを考えている人々から注目されているようです。 詳細は以下から。 Hypertable: An Open Source, High Performance, Scalable Database http://www.hypertable.org/ ダウンロードは以下から。同梱されているテキストファイルにインストール方法などが記されています。 Download Hypertable 実際のテスト結果などは以下に書いてあります。 PerformanceTestAO

    Googleの誇る巨大データベースBigTableのオープンソースクローン「Hypertable」
    teahut
    teahut 2008/02/08
    >AOLの検索データセット2800万行を使った実験結果では、1ノードあたり毎秒7MBの書き込み速度をマークし、一度読み込んでロードしたデータを再読込する際には毎秒100万セルほどの速度が出たそうです。
  • 楽天、分散ストレージ「Roma」と分散処理基盤「Fairy」の概要を公開 | gihyo.jp

    2007年11月24日、楽天の新社屋である楽天タワーにてイベント「楽天テクノロジーカンファレンス2007」が開かれました。 楽天はプログラミング言語Rubyの開発者まつもとゆきひろ氏を技術研究所のフェローとして迎えているのですが、このカンファレンスにてまつもと氏により、Rubyで開発を進めている分散ストレージ「Roma」と分散処理モデル「Fairy」の概要が発表されました。どちらも数千台ものサーバを使って大規模な処理を効率的に行うための基盤となる技術です。 今後、CPUクロック成長の限界、マシン1台あたりのコストや故障への対応などを考えると、マシンをたくさん並べてスケールする方法がより一般的になることでしょう。そうなると、こういった分散処理技術が必要になるため、楽天にとってRomaやFairyが重要な基盤になっていくことでしょう。 ちなみに、GoogleではGFS(Google File

    楽天、分散ストレージ「Roma」と分散処理基盤「Fairy」の概要を公開 | gihyo.jp
    teahut
    teahut 2007/12/25
    >MicrosoftもDryadという名前で研究開発を進めています。またオープンソースでは,「Hadoop」(Java。Yahoo!でも使われている)や「MogileFS」(Perl)などがあります。
  • Matzにっき(2007-10-10)

    << 2007/10/ 1 1. [Ruby] ロゴコンテスト締め切り 2. [Ruby] Rubyで自治体の業務システム構築、松江で実証実験 − @IT 3. On Off and Beyond: 何かを好きになるために努力すること 4. U-20プロコン表彰式 5. 経済産業大臣表彰 2 1. [言語] プログラミング言語「ドリトル」 - Dolittle 2. [Ruby] 【CEATEC】東芝がCell上でRubyを使った家電向けユーザー・インタフェースをデモ:ITpro 3 1. [言語] The Transterpreter 2. 5時間以下の睡眠続け死亡率1.7倍に 7時間寝よう|Ameba News 3. This is making me angry 4. [Ruby] Ruby on Rails Development: Justify Your Choice of R

    teahut
    teahut 2007/11/02
    >Hadoopを使ってPythonでMapReduceを書く。っていうか、普通に標準入出力を使ったフィルタプログラムになってるな。これでMapReduceになるのか。興味深い。
  • Apache Hadoop のプロジェクト詳細

    Hadoop は、Apache Lucene のサブプロジェクトで、分散コンピューティングのプラットフォームを含んでいます。以前は Nutch の一部でした。Hadoop Distributed Filesystem (HDFS:Hadoop 分散 ファイルシステム) や MapReduce の実装も含んでいます。

    teahut
    teahut 2007/11/02
    >分散コンピューティングのプラットフォームを含んでいます。以前は Nutch の一部でした。Hadoop Distributed Filesystem (HDFS:Hadoop 分散 ファイルシステム) や MapReduce の実装も含んでいます。
  • グーグルキラーとなるか--オープンソースで分散型のグーグルクローンを作る:コラム - CNET Japan

    情報開示:記事の著者であるEmre Sokulluは、2007年3月に検索エバンジェリストとしてHakiaに加わっている。以下の記事はいかなる意味においてもHakiaの見解を代表するものではなく、Emreの個人的な意見である。 Googleは若いマンモスのようなものだ。すでに十分強いが、まだ成長の最中だ。四半期決算は良好で、オンライン広告スペースに対する評価が上がっていることは、GoogleNASDAQでの勢いを維持する最大の要因になっている。しかし、ここで土俵の外側からGoogleキラーのシナリオを考えてみることにしよう。読者の方はわたしがオープンソースで頭がいっぱいだということをご存じかもしれないが(例えばopenhumanやsimplekdeなどのわたしのプロジェクトから)、これを反映して、わたしの提案はオープンソースに基づくものだ。これをGoogle@Homeと呼びたい。 最初

    グーグルキラーとなるか--オープンソースで分散型のグーグルクローンを作る:コラム - CNET Japan
    teahut
    teahut 2007/05/29
    >多くのオープンソース型の検索エンジンプロジェクトが存在する。Apache Lucene (NutchとHadoop分散ファイルシステム)... オープンソースのGoogleクローンを作るのは... 可能性が高いのは、Googleと直接競合する企業たち
  • 1