タグ

mapreduceに関するaoe-tkのブックマーク (7)

  • Mapreduce2.0 - 急がば回れ、選ぶなら近道

    次世代Hadoopの開発が進んでいる。現状の推移では、少なくとも分散クラウドでの「OSSインフラ」としてはHadoopが最有力候補であることは間違いない。クラウド上での分散処理基盤での技術競争ではGoogleAmazonが相当抜きんでいる現在、それに対抗しうる可能性があるOSSはHadoopの潮流の延長線上にしか考えられない。その形としてHadoop-MapReduce2.0があるように見える。現在の状態で自分なりの次世代Hadoopの理解をまとめておく。基的に全部は見切れていないので、そのあたりはあしからず。基的に次世代Hadoopの仕組みは大きく二つの要素からなる 現在のところの柱はHDFSとMapreduce2.0の二つだ。 まずMapReduce。これは従来の「MapReduce」というものからはほど遠い。むしろ「任意」の分散処理実行フレームワークにたいして、適切なリソースを

    Mapreduce2.0 - 急がば回れ、選ぶなら近道
  • MapReduceのもう一つの使い方 - 急がば回れ、選ぶなら近道

    MapReduceというと集計に使うモノという人が多いと思う。 なんとなれば、MapReduce=Hadoop=ワードカウントの図式になっているからだ。 実際、Hadoopを触ってみようという人のほとんどはexampleとしてワードカウントを使うはず。その辺に落ちてるシェークスピアのログでHadoopのexampleを動かした人もおおいはず。 ところが実際に業務バッチ的な処理を行うときに、MapReduceの効果的な使い方は別にもある。個人的は、「当のMapReduceの使いかた」はこっちだと思う。なんということはなくて「組み合わせ計算を高速に行う」だ。ある種の計算では、順序処理でギブアップしてしまうケースの一つに組み合わせの計算がある Node{ List<Node> nodeList value(){ hasNodeList() ? nodeList.traverse(value()

    MapReduceのもう一つの使い方 - 急がば回れ、選ぶなら近道
  • http://docs.amazonwebservices.com/jp/ElasticMapReduce/latest/GettingStartedGuide/

    aoe-tk
    aoe-tk 2011/05/01
    Amazon EMRの日本語ガイド
  • Hadoopの死角、COBOLバッチ処理の並列化

    Hadoopの死角、COBOLバッチ処理の並列化:現場にキく、Webシステムの問題解決ノウハウ(8) 連載は、日立製作所が提供するアプリケーションサーバ「Cosminexus」の開発担当者へのインタビューを通じて、Webシステムにおける、さまざまな問題/トラブルの解決に効くノウハウや注意点を紹介していく。現在起きている問題の解決や、今後の開発のご参考に(編集部) クラウドで可能になった大量データ処理とバッチ処理 クラウド・コンピューティングを前提として、多数のサーバを使い大量のデータ処理をするための手法として、「MapReduce」や、MapReduceをJavaで実現するフレームワーク「Hadoop」に代表される分散並列処理に注目が集まっている。 多数のサーバを使い計算処理を並列化し、それまで非現実的と思われていた大量の計算処理も可能とする手法で、まさに「クラウド時代の技術」といえるだ

    Hadoopの死角、COBOLバッチ処理の並列化
    aoe-tk
    aoe-tk 2011/01/27
    ほほう、「日立のグリッドバッチなら既存COBOLアプリをなるべく手を加えずに分散化」ですか...。
  • 第2回 Web ConsoleからElastice MapReduceを起動させる | gihyo.jp

    前回は、Amazon Elastic MapReduce(EMR)を使うまでに必要なことを説明しました。今回からは実際の使い方を紹介していきます。 Web Consoleに接続する まずはWebブラウザでAWSのWeb Consoleに接続します。AWSの推奨ブラウザはFirefoxです。接続したら、「⁠AWS Management Consoleを利用する」をクリックし、Web Consoleのログイン画面に進みます(図1⁠)⁠。 図1 次に、登録に使用したE-mailアドレスとパスワードを使ってWeb Consoleにログインします(図2⁠)⁠。 図2 ログインしたら、タプの中からAmazon Elastic MapReduceを選択します(図3⁠)⁠。 図3 新しいJob Flowを作成する 次に、Create New Job Flowを選択し、新規にMapReduceのJobを作成

    第2回 Web ConsoleからElastice MapReduceを起動させる | gihyo.jp
  • Googleの並列ログ解析向け言語「Sawzall」が公開されたので使ってみた | Preferred Research Blog

    最近光麺にハマっている太田です。 グーグル、分散処理のためにデザインされた言語「Sawzall」をオープンソースで公開 ? Publickeyで紹介されている、並列ログ解析向け言語「Sawzall」を試してみました。動かし方のドキュメントが少なかったので、紹介エントリを書いてみます。 プロジェクトページ ドキュメント Sawzallについては、5年前に論文が発表されており一部概要を知ることは出来ましたが、先日実装がオープンソースで公開されました。論文の第一著者はUNIXやPlan9の開発者で知られるRob Pike氏です。 Interpreting the Data: Parallel Analysis with Sawzall MapReduceのOSS実装として「Hadoop」が良く知られていますが、Hadoop向けの言語としてはHiveやPig等が有名です。 Hive: MapRed

    Googleの並列ログ解析向け言語「Sawzall」が公開されたので使ってみた | Preferred Research Blog
  • Hadoopを表計算のように使える「InfoSphere BigInsights」、IBMが発表

    IBMがHadoopをベースにしたデータ分析ソフトウェア「InfoSphere BigInsights」を、先週ローマで開催された同社のイベント「IBM Information On Demand Europe 2010」で発表しました。 InfoSphere BigInsightsは、Apache Hadoopをベースにした分析エンジンの「BigInsights Core」と、その上で大規模データをWebブラウザを利用してスプレッドシートのようなユーザーインターフェイスで分析を行える「BigSheets」の2つから構成されます。 BigSheetsで表計算のようにデータ分析 BigInsights CoreのベースとなっているHadoopは、数百万件など大規模なデータを大量のサーバで分散処理するためのオープンソースのソフトウェアです。Yahoo!やFacebook、日ではCookpad

    Hadoopを表計算のように使える「InfoSphere BigInsights」、IBMが発表
  • 1