タグ

hadoopに関するaki77のブックマーク (29)

  • Announcing Amazon Elastic MapReduce | Amazon Web Services

    AWS News Blog Announcing Amazon Elastic MapReduce Today we are introducing Amazon Elastic MapReduce , our new Hadoop-based processing service. I’ll spend a few minutes talking about the generic MapReduce concept and then I’ll dive in to the details of this exciting new service. Over the past 3 or 4 years, scientists, researchers, and commercial developers have recognized and embraced the MapReduce

    Announcing Amazon Elastic MapReduce | Amazon Web Services
  • Big Data Platform - Amazon EMR - AWS

    Run big data applications and petabyte-scale data analytics faster, and at less than half the cost of on-premises solutions. Build applications using the latest open-source frameworks, with options to run on customized Amazon EC2 clusters, Amazon EKS, AWS Outposts, or Amazon EMR Serverless.

    Big Data Platform - Amazon EMR - AWS
  • http://as-is.net/blog/archives/001418.html

  • Hadoop StreamingのReducerへの入力の構造化をPHPでやってみた - Stellaqua - TOMの技術日記

    (今回の記事は、id:naoyaさんの記事をパクってにインスパイアされて、PHPでやってみたものです。話の内容としては概ね同じです。) 前回の記事の最後で、「HadoopStreamingはReducerへの入力が構造化されていないという問題点があります。」という事を書きました。 前回の小説の文を分かち書きしたものの単語数カウントの例で言うと、Reducerに渡ってくる入力は次のような形になります。 単語1 1 単語1 1 単語2 1 :今回は、単純にハッシュ上にカウントしていくだけなので大した問題にはなりませんが、もっと複雑な処理をReducerにやらせようとすると、PHPプロセスのメモリ不足になってしまう可能性があります。 PHPでHadoopStreamingの入出力を汎用的に扱う という訳で、id:naoyaさんの作ったフレームワークを参考に、PHPで同じようなものを作ってみました

    Hadoop StreamingのReducerへの入力の構造化をPHPでやってみた - Stellaqua - TOMの技術日記
  • MapReduce - naoyaのはてなダイアリー

    "MapReduce" は Google のバックエンドで利用されている並列計算システムです。検索エンジンのインデックス作成をはじめとする、大規模な入力データに対するバッチ処理を想定して作られたシステムです。 MapReduce の面白いところは、map() と reduce() という二つの関数の組み合わせを定義するだけで、大規模データに対する様々な計算問題を解決することができる点です。 MapReduce の計算モデル map() にはその計算問題のデータとしての key-value ペアが次々に渡ってきます。map() では key-value 値のペアを異なる複数の key-value ペアに変換します。reduce() には、map() で作った key-value ペアを同一の key で束ねたものが順番に渡ってきます。その key-values ペアを任意の形式に変換すること

    MapReduce - naoyaのはてなダイアリー
    aki77
    aki77 2009/03/05
  • Hadoop Streamingで分散処理をPHPでやってみた - Stellaqua - TOMの技術日記

    「何番煎じか分からないけど集合知プログラミングをPHPでやってみたシリーズ」で扱っている集合知プログラミングは、とかく計算量が多くなりがちで、うまくアルゴリズムを作らないとメモリ不足に陥りがちです。 現に前回の記事では、その越えられない壁を体験してしまったので、「どげんかせんといかん。」という事で、最近ちょっと興味のある、Googleのバックエンドでも使われている"MapReduce"に関して少し調べてみました。 "MapReduce"に関しては、「"Googleを支える技術"読め。以上。」でもいいんですが、id:naoyaさんが書かれている記事が非常に分かりやすかったので、その記事のリンクを貼っておきます。 →MapReduce - naoyaのはてなダイアリー "Googleを支える技術"もせっかくだからAmazonのリンクを貼っておきます。 Googleを支える技術 ?巨大システムの

    Hadoop Streamingで分散処理をPHPでやってみた - Stellaqua - TOMの技術日記
  • Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)

    ヤフー株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。LINEヤフー Tech Blog こんにちは、地域サービス事業部の吉田一星です。 今回は、Hadoopについて、Yahoo! JAPANでの実際の使用例を交えながら書きたいと思います。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 複数のマシンへの分散処理は、プロセス間通信や、障害時への対応などを考えなければならず、プログラマにとって敷居が高いものですが、 Hadoopはそういった面倒くさい分散処理を一手に引き受けてくれます。 1台では処理にかなり時間がかかるような大量のデータも、複数マシンに分散させることで、驚くべきスピードで処理を行うことができます。 例えば、今まで1台でやっていた、あるログ集計処理

    Hadoopで、かんたん分散処理 (Yahoo! JAPAN Tech Blog)
  • Hadoopの解析資料

    オープンソース分散システム「Hadoop」に関する解析資料を公開させて頂いております。この調査はNTTレゾナント株式会社様と共同で行いました(プレスリリース)。 Hadoop解析資料(PDF), 最終更新: 2008/08/25, 公開: 2008/08/25 Hadoopの実際のインストール方法などにつきましては、弊社太田による以下の記事もご参考下さい。 Hadoop、hBaseで構築する大規模分散データ処理システム Hadoopのインストールとサンプルプログラムの実行 複数マシンへHadoopをインストールする

  • blogeyeの実装に学ぶ、Amazon EC2/S3でのHadoop活用術:CodeZine

    はじめに こんにちは。Hadoop連載 第4回は太田さんに代わって大倉が担当します。 これまでの連載で、Hadoopによるデータ処理の概略については理解されていると思います。今回はHadoopを利用したシステムの実例ということで、ブログ分析を行う「blogeye」システムの概略と、その中でのHadoop利用法を紹介します。 また、blogeyeAmazonが提供しているEC2(レンタルサーバ)、S3(ストレージ)をHadoopと組み合わせて利用しているので、その辺りの導入方法についても紹介します。これまでの連載Hadoop、hBaseで構築する大規模分散データ処理システムHadoopのインストールとサンプルプログラムの実行複数マシンへHadoopをインストールする blogeyeとは 「blogeye」(ブログアイ)は日語のブログをクロール、リアルタイムに分析して、流行語と思われるもの