タグ

Hadoopに関するnaoeのブックマーク (11)

  • ビッグデータをグーグル検索のように扱う「Cloudera Search」 « WIRED.jp

  • Hadoop導入事例 in クックパッド

    1. Hadoop is a framework for distributed processing of large datasets across clusters of computers. 2. Hadoop can be used to perform tasks like large-scale sorting and data analysis faster than with traditional databases like MySQL. 3. Example applications of Hadoop include processing web server logs, managing user profiles for a large website, and performing machine learning on massive datasets.R

    Hadoop導入事例 in クックパッド
  • 次世代Hadoopの特徴は、MapReduce 2とGiraph - @IT

    次世代Hadoopの特徴は、 MapReduce 2とGiraph Hadoopの父に聞く、HadoopとClouderaの現在・未来 有限会社オングス 後藤 大地 2011/9/15 ■ 増え続けるHadoop活用企業 大規模データの分析に、Javaのフレームワーク「Apache Hadoop」(以下、Hadoop)を採用する事例が増えている。HadoopはMapReduceの実装系の1つで、特にログデータ解析やリサーチ目的の大規模データ分析や計算などに活用されている。TwitterやFacebook、mixi、LinkedIn、Groupon、Amazon、eBay、Yahoo!楽天クックパッド、リクルート、ディー・エヌ・エー、サイバーエージェントなどのいわゆるWebサービス系企業だけでなく、NTTデータ、Amazon Web Services、国立国会図書館EMC、PFI、ウル

  • Amazon Redshift ベンチマーク Hadoop + Hiveと比較

    Hapyrus では、 Hadoop + Hive と Amazon Redshift のソリューション、また Amazon Redshift の導入コンサルティングを提供します。ぜひお問い合わせ下さい。info@hapyrus.com http://hapyrus.com/Read less

    Amazon Redshift ベンチマーク Hadoop + Hiveと比較
  • 第4回 ログ解析で利用できるHadoop | gihyo.jp

    Hadoopの出現で「ログ」がどのように活用できるようになったのでしょうか。従来から「ログ」を分析すれば有益な情報が得られる可能性があることは知られていました。しかし、大量のログを格納可能なストレージシステムや、それらを現実的な時間内で処理することができるプロダクトが存在しなかったのです。しかし、Hadoopが利用できる今、我々はログを自由に分析し、活用する自由を手に入れました。 今回は次の3つの題材を用いて、ログから何が分析できるのか、分析した情報をどのように活用できるのかを見てまいりましょう。 ログから「行動パターン」を見つける ログから「おすすめ」を見つける ログから「広告効果」を見つける 1.ログから「行動パターン」を見つける~VISAによるカードの不正利用検知~ ログを見れば、誰かが勝手にあなたのカードを使っていないかがわかります。世界最大規模のクレジットカード決済ネットワークを

    第4回 ログ解析で利用できるHadoop | gihyo.jp
  • 『Hadoop/Hiveを用いたログ解析基盤の構築』

    こんにちは。Amebaのログ解析基盤を担当しているICHIROです。 今回は構築・運用中のログ解析基盤「Patriot」について書きたいと思います。 Webサービスを運営していると日々大量のログデータやユーザデータが蓄積されます。 今まではPV(ページビュー)やUU(ユニークユーザ)などアクセスログなどから取れる、大枠の指標のみを見ることがほとんどでした。 ページビューに合わせてシステムを増強するなど、システム側としては十分とも言える指標ですが、広告や課金サービスという視点から見ると十分とは言えません。 今まではAmeba内の個々のサービス担当者が必要とする指標を出すためにアプリエンジニアDBエンジニアに都度依頼をする形でデータを抽出していました。 今後の課金サービスの発展が見込まれ、よりデータ分析の重要性が高まると考えた私は、エンジニアでないサービス担当者(主にプロデューサ)がより簡単

    『Hadoop/Hiveを用いたログ解析基盤の構築』
  • そろそろHadoopについてひとこと言っておくか - nokunoの日記

    もうこの手の話題は出尽くした感がありますが、最近Hadoopについて考えることが多いので、エントリにしてみます。なお、ここではベーシックなMapReduce+HDFSのことをHadoopと呼ぶことにします。 HadoopとはHadoopとは言わずと知れたGoogleMapReduce/GFSのオープンソースのクローンです。MapReduceではプログラマはMapとReduceという2つの関数を書くだけで、並列分散処理をすることができます。これは(1) データを実際に持つマシンにプログラムを配布する (2) MapとReduceをつなぐShuffleフェーズでキーをグループ化してソートする、(3) 障害時のフェールオーバーやレプリケーション、といった処理をフレームワーク側が受け持つことによって、プログラマ側の負担を減らすものです。GFSに対応するHDFSにはファイルをクラスタに分散して保存

    naoe
    naoe 2011/01/11
  • 楽天がHadoopを使う理由

    1. 楽天がHadoopを使う理由 Keisuke Kawamura | Development Unit Rakuten, Inc. Nikkei Computer Seminar 15th Dec. 2010 1 Tuesday, December 21, 2010 1 2. 自己紹介 河村 圭介(かわむらけいすけ) 楽天株式会社 Development Unit シニアアソフトウェアエンジニア - Webサービスの企画・開発 - 大規模データ解析の処理基盤構築 2 Tuesday, December 21, 2010 2 3. 自己紹介 課外活動 楽天で行われる各種技術イベント 企画・運営 Hadoopソースコードリーディング お手伝い 事例記事の執筆などなど Contact : keisuke.kawamura@mail.rakuten.co.jp twitter @kkawamu

    楽天がHadoopを使う理由
  • その分析、Hadoopなら速く安くできます

    ビジネスデータを分析するビジネスインテリジェンス(BI)分野の新たなプラットフォームとして注目されているHadoop。Hadoopでは、どのようなデータ分析が可能なのでしょうか? 現在、Hadoopビジネスの牽引役であるClouderaのJeff Hammerbracher氏が、Hadoopでデータ分析が可能なビジネス上の課題を示した「10 Common Hadoop-able problems」(Hadoop化可能な10の一般的課題)と題したプレゼンテーションを公開しています。 Hadoopにとって得意な処理とは、複雑で複数のデータソースからなる大量のデータの分析であり、それをバッチ処理の並列実行によって実現することです。 従来は、データがあまりに複雑だったり膨大だっために、計算時間やコストなどの理由で実現が難しかった処理でも、Hadoopによる低コスト化、計算時間の短縮、高い柔軟性など

    その分析、Hadoopなら速く安くできます
    naoe
    naoe 2010/09/01
  • Hadoop を使うべき場合・使うべきでない場合 - 武蔵野日記

    id:ny23 さんが動的ダブル配列を使って Wikipedia のテキスト処理を高速化なんてのを書いている。たぶんこれのエントリを見る前にMapReduce と四身の拳を見た方がコンテクストが分かると思う。Hadoop 使ってなんでもできそう! Hadoop の勉強したい!なんて思っている人は読んでみるとよい。 自分の考えについて書いておくと、自分は誰も彼も Hadoop 使いたがる状況には辟易している。ほとんどの人には不要なはずだし、そもそも Hadoop は(ny23 さんも書かれているが)メモリに乗り切らない大規模データを扱いたいときに効力を発揮するのであって、メモリに乗り切るくらいのサイズであれば、データ構造を工夫したり適切なアルゴリズムを選択した方が遥かによい(id:tsubosaka さんも実験されていたが)。たとえデータが大規模であったとしても、たとえば形態素解析なんかのタ

    Hadoop を使うべき場合・使うべきでない場合 - 武蔵野日記
    naoe
    naoe 2010/06/15
  • Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記

    今月中に実験の実装が終わるくらいでないと来月の投稿〆切に間に合わないので、今週から研究室のサーバに Hadoop をインストールしている。 研究室にはサーバが20台弱あるのだが、そのうち10台強を使うことにして設定。これくらいの規模だと「大規模」と言うのは憚られるかもしれないが(Yahoo!Google と比べて、という意味で。)、中規模、くらいには言ってもいいだろうし、たぶん、多くの大学や企業で使える台数もこれくらいだと思うし、大企業にいないとできない研究をするのも大変価値があるが、他の人たちがやる気になれば真似できる研究をするのも(データやインフラ勝負ではなくアイデア勝負になるので苦しくはあるのだが)重要だと考えている。 たとえば、数台でも分散環境の恩恵が受けられる、というのはPFI が出した Hadoop の解析資料で知っていたので、初めて導入したときは参考になったし、こういう

    Hadoop で Wikipedia のテキスト処理を900倍高速化 - 武蔵野日記
  • 1