タグ

hadoopに関するikebeのブックマーク (14)

  • 『Hadoop/Hiveを用いたログ解析基盤の構築』

    こんにちは。Amebaのログ解析基盤を担当しているICHIROです。 今回は構築・運用中のログ解析基盤「Patriot」について書きたいと思います。 Webサービスを運営していると日々大量のログデータやユーザデータが蓄積されます。 今まではPV(ページビュー)やUU(ユニークユーザ)などアクセスログなどから取れる、大枠の指標のみを見ることがほとんどでした。 ページビューに合わせてシステムを増強するなど、システム側としては十分とも言える指標ですが、広告や課金サービスという視点から見ると十分とは言えません。 今まではAmeba内の個々のサービス担当者が必要とする指標を出すためにアプリエンジニアDBエンジニアに都度依頼をする形でデータを抽出していました。 今後の課金サービスの発展が見込まれ、よりデータ分析の重要性が高まると考えた私は、エンジニアでないサービス担当者(主にプロデューサ)がより簡単

    『Hadoop/Hiveを用いたログ解析基盤の構築』
  • ヤフーを変え始めたHadoop

    ヤフーが日独自の検索関連サービスの開発で、オープンソースの分散処理ソフトである「Hadoop」の活用を進めている。Hadoopを使うことで、従来は6時間以上かかった処理がわずか5分半で済むようになった例もある。2009年秋には組織を整備し、適用範囲を全社に広げている。 Hadoopは、米グーグルが開発した分散処理ソフト「Google File System(GFS)」と「MapReduce」を模したオープンソースソフトである(図)。GFSとMapReduceは、グーグルのクラウドを支える基盤技術。Hadoopを使うと、複数台の安価なPCサーバーを連携させ、数十テラ~数ペタバイトに及ぶデ ータを高速に処理できる。 Hadoopを日国内で最も積極的に利用している企業はヤフーだ。2008年ごろから部署単位でHadoopの導入を進め、Hadoopを使う事例が10件を超えるようになった(表)。

    ヤフーを変え始めたHadoop
    ikebe
    ikebe 2010/06/14
  • Hadoopを業務で使ってみた話 - クックパッド開発者ブログ

    8月に入社した佐々木です。こんにちわ! 入社してからはHadoopを使うことが多く、日々、大規模データと格闘しています。大変ではありますが、個人ではなかなか触ることが出来ないような大規模データを触れるのは楽しいです。 さて、Hadoopは最近色々なところで使われ始めてきていると思うんですが、実際に利用してみて困った事やtipsなど、実践的な情報はまだあまり公開されていません。その辺の情報をみんな求めているはず…!! そこで、僕が実際に触ってみて困った事やHadoopを使う上でポイントだと思ったことなどを社内勉強会で発表したので公開してみます。Hadoopを使っている(使いたいと思っている)方の参考になれば幸いです。 [slideshare id=2711363&doc=20091214techblog-091213183529-phpapp02] Hadoopの利用はまだまだ試行錯誤の連続

    Hadoopを業務で使ってみた話 - クックパッド開発者ブログ
    ikebe
    ikebe 2009/12/17
  • GoogleのMapReduceは僕たちに必要か? - きしだのはてな

    ということで、Google MapReduceの実装であるHadoopを使ったMapReduceと、JMSを使ったMapReduceをやってみました。 メッセージキューを使って分散MapReduceを実装する HadoopでのMapReduceを気軽に試すサンプル これ何のためにやったかというと、そこらにあるような数十台規模のサーバーを前提としたときに、Hadoopの有効性、ひいてはその元になってるGoogle MapReduceの有効性について疑問に思ったからです。そこで、ちょっと試してみた、と。 ここで、メッセージキューを使った場合に1秒でできてた処理が、Hadoopを使うとスタンドアロンモードでも40秒近くかかりました。擬似分散モードだと4分近くです。 いくらHadoopの実装がひどいとしても、これはあんまりです。 Googleでの実装はもっと効率的なものになっていると思いますが、そ

    GoogleのMapReduceは僕たちに必要か? - きしだのはてな
    ikebe
    ikebe 2009/02/18
  • blogeyeの実装に学ぶ、Amazon EC2/S3でのHadoop活用術

    はじめに こんにちは。Hadoop連載 第4回は太田さんに代わって大倉が担当します。 これまでの連載で、Hadoopによるデータ処理の概略については理解されていると思います。今回はHadoopを利用したシステムの実例ということで、ブログ分析を行う「blogeye」システムの概略と、その中でのHadoop利用法を紹介します。 また、blogeyeAmazonが提供しているEC2(レンタルサーバ)、S3(ストレージ)をHadoopと組み合わせて利用しているので、その辺りの導入方法についても紹介します。 これまでの連載 Hadoop、hBaseで構築する大規模分散データ処理システム Hadoopのインストールとサンプルプログラムの実行 複数マシンへHadoopをインストールする blogeyeとは 「blogeye」(ブログアイ)は日語のブログをクロール、リアルタイムに分析して、流行語と思わ

    blogeyeの実装に学ぶ、Amazon EC2/S3でのHadoop活用術
  • Hadoop + Luceneで分散インデクシング - moratorium

    Hadoop + Luceneで分散インデクシング 2008-08-27 (Wed) 1:07 Hadoop Hadoop (0.17系) + Lucene (2.3系) で検索用インデックスを分散インデクシングするコードを公開してみます。HDDに眠らせてるのはちょっともったいない。 いきなりソースコード。 package net.kzk9; import java.io.*; import java.util.*; import org.apache.hadoop.conf.*; import org.apache.hadoop.fs.*; import org.apache.hadoop.io.*; import org.apache.hadoop.mapred.*; import org.apache.hadoop.util.*; import org.apache.lucene.i

  • Hadoopの解析資料

    オープンソース分散システム「Hadoop」に関する解析資料を公開させて頂いております。この調査はNTTレゾナント株式会社様と共同で行いました(プレスリリース)。 Hadoop解析資料(PDF), 最終更新: 2008/08/25, 公開: 2008/08/25 Hadoopの実際のインストール方法などにつきましては、弊社太田による以下の記事もご参考下さい。 Hadoop、hBaseで構築する大規模分散データ処理システム Hadoopのインストールとサンプルプログラムの実行 複数マシンへHadoopをインストールする

    ikebe
    ikebe 2008/08/25
  • blogeyeの実装に学ぶ、Amazon EC2/S3でのHadoop活用術:CodeZine

    はじめに こんにちは。Hadoop連載 第4回は太田さんに代わって大倉が担当します。 これまでの連載で、Hadoopによるデータ処理の概略については理解されていると思います。今回はHadoopを利用したシステムの実例ということで、ブログ分析を行う「blogeye」システムの概略と、その中でのHadoop利用法を紹介します。 また、blogeyeAmazonが提供しているEC2(レンタルサーバ)、S3(ストレージ)をHadoopと組み合わせて利用しているので、その辺りの導入方法についても紹介します。これまでの連載Hadoop、hBaseで構築する大規模分散データ処理システムHadoopのインストールとサンプルプログラムの実行複数マシンへHadoopをインストールする blogeyeとは 「blogeye」(ブログアイ)は日語のブログをクロール、リアルタイムに分析して、流行語と思われるもの

  • Hadoopのインストールとサンプルプログラムの実行:CodeZine

    前回はGoogleの基盤技術とそれに対応するオープンソースソフトウェアとして、Hadoop & hBaseを紹介しました(図1 参照)。今回はHadoopを1台にインストールし、サンプルプログラムを動かします。次にHDFSとMapReduceのアーキテクチャを解説します。最後にサンプルプログラムのソースコードを解説します。2. Hadoopの概要 Hadoopは主にYahoo! Inc.のDoug Cutting氏によって開発が進められているオープンソースソフトウェアで、GoogleFileSystemMapReduceというGoogleの基盤技術のオープンソース実装です。Hadoopという名前は開発者の子供が持っている黄色い象のぬいぐるみの名前に由来しています。HadoopはHDFS(Hadoop Distributed File System)、Hadoop MapReduce Fr

    ikebe
    ikebe 2008/05/16
  • Hadoopのインストールとサンプルプログラムの実行 - moratorium

    Hadoopのインストールとサンプルプログラムの実行 2008-05-15 (Thu) 13:48 Hadoop CodeZineでのHadoop連載記事第二回が公開されました。 Hadoopのインストールとサンプルプログラムの実行 是非インストールして試してみてください。 最近、はてなの伊藤さんもHadoopをブログで取り上げて下さって、盛り上がりそうなので嬉しいです。しっかしid:naoyaの人気すげー。 MapReduce Hadoop Streaming 第3回は、ようやく分散環境での動作方法です。第4回はHadoopを使ったサービス構築の具体例を取り上げてみたいということで、blogeye.jpを作られた大倉さんにバトンタッチします。 blogeye.jpはAmazon S3, EC2上で構築されたシステムで、著者推定の部分にHadoopが用いられているらしいです。Hadoopで

    ikebe
    ikebe 2008/05/16
  • Hadoop、hBaseで構築する大規模分散データ処理システム:CodeZine

    はじめに この連載では、大規模分散計算フレームワーク「Hadoop」と、その上につくられた大規模分散データベース「hBase」の仕組みと簡単なサンプルアプリケーションを紹介します。HadoopとhBaseは、Googleの基盤ソフトウェアのオープンソースクローンです。機能やコンセプトについては、Googleが発表している学術論文に依っています。 これらの学術論文によると、Googleでは大規模分散ファイルシステム「Google File System」、大規模分散計算フレームワーク「MapReduce」、大規模分散データベース「BigTable」、分散ロックサービス「Chubby」という4つのインフラソフトウェアが使われています。 図1にGoogleの基盤技術間の依存関係、そしてそれに対応するOSSの対応関係を示しました。まずは対応するGoogleの基盤技術それぞれの機能や特徴をざっくりと

    ikebe
    ikebe 2008/05/14
  • TechCrunch Japanese アーカイブ � ヤフーが検索にHadoop採用、グーグルっぽく脱皮を図る

    Since April, a hacker with a history of selling stolen data has claimed a data breach of billions of records — impacting at least 300 million people — from a…

    TechCrunch Japanese アーカイブ � ヤフーが検索にHadoop採用、グーグルっぽく脱皮を図る
  • Wakhok マルレク・サブセミナー 第三回「Apache HadoopとAmazon EC2/S3」 - 文殊堂

    HadoopのデモとSawzallの解説 資料は、 丸山先生レクチャーシリーズ2007-2008第1回「Googleの分散処理技術」 こちらの下にある「サブセミナー第2回ハンズアウト」というPDFの後半。

    Wakhok マルレク・サブセミナー 第三回「Apache HadoopとAmazon EC2/S3」 - 文殊堂
    ikebe
    ikebe 2008/01/07
  • Apache Hadoop

    This is the first release of Apache Hadoop 3.4 line. It contains 2888 bug fixes, improvements and enhancements since 3.3. Users are encouraged to read the overview of major changes. For details of please check release notes and changelog. This is a release of Apache Hadoop 3.3 line. It contains 117 bug fixes, improvements and enhancements since 3.3.5. Users of Apache Hadoop 3.3.5 and earlier shoul

    ikebe
    ikebe 2007/09/12
  • 1