[B! mapreduce] aoe-tkのブックマーク

Mapreduce2.0 - 急がば回れ、選ぶなら近道

次世代Hadoopの開発が進んでいる。現状の推移では、少なくとも分散クラウドでの「OSSインフラ」としてはHadoopが最有力候補であることは間違いない。クラウド上での分散処理基盤での技術競争ではGoogleやAmazonが相当抜きんでいる現在、それに対抗しうる可能性があるOSSはHadoopの潮流の延長線上にしか考えられない。その形としてHadoop-MapReduce2.0があるように見える。現在の状態で自分なりの次世代Hadoopの理解をまとめておく。基本的に全部は見切れていないので、そのあたりはあしからず。基本的に次世代Hadoopの仕組みは大きく二つの要素からなる現在のところの柱はHDFSとMapreduce2.0の二つだ。まずMapReduce。これは従来の「MapReduce」というものからはほど遠い。むしろ「任意」の分散処理実行フレームワークにたいして、適切なリソースを

aoe-tk 2011/10/21

リンク

MapReduceのもう一つの使い方 - 急がば回れ、選ぶなら近道

MapReduceというと集計に使うモノという人が多いと思う。なんとなれば、MapReduce＝Hadoop＝ワードカウントの図式になっているからだ。実際、Hadoopを触ってみようという人のほとんどはexampleとしてワードカウントを使うはず。その辺に落ちてるシェークスピアのログでHadoopのexampleを動かした人もおおいはず。ところが実際に業務バッチ的な処理を行うときに、MapReduceの効果的な使い方は別にもある。個人的は、「本当のMapReduceの使いかた」はこっちだと思う。なんということはなくて「組み合わせ計算を高速に行う」だ。ある種の計算では、順序処理でギブアップしてしまうケースの一つに組み合わせの計算がある Node{ List<Node> nodeList value(){ hasNodeList() ? nodeList.traverse(value()

aoe-tk 2011/06/12

リンク

http://docs.amazonwebservices.com/jp/ElasticMapReduce/latest/GettingStartedGuide/

aoe-tk 2011/05/01

Amazon EMRの日本語ガイド

リンク

Hadoopの死角、COBOLバッチ処理の並列化

Hadoopの死角、COBOLバッチ処理の並列化：現場にキく、Webシステムの問題解決ノウハウ（8）本連載は、日立製作所が提供するアプリケーションサーバ「Cosminexus」の開発担当者へのインタビューを通じて、Webシステムにおける、さまざまな問題／トラブルの解決に効くノウハウや注意点を紹介していく。現在起きている問題の解決や、今後の開発のご参考に（編集部）クラウドで可能になった大量データ処理とバッチ処理クラウド・コンピューティングを前提として、多数のサーバを使い大量のデータ処理をするための手法として、「MapReduce」や、MapReduceをJavaで実現するフレームワーク「Hadoop」に代表される分散並列処理に注目が集まっている。多数のサーバを使い計算処理を並列化し、それまで非現実的と思われていた大量の計算処理も可能とする手法で、まさに「クラウド時代の技術」といえるだ

aoe-tk 2011/01/27

ほほう、「日立のグリッドバッチなら既存COBOLアプリをなるべく手を加えずに分散化」ですか...。

リンク

第2回　Web ConsoleからElastice MapReduceを起動させる | gihyo.jp

前回は、Amazon Elastic MapReduce（EMR）を使うまでに必要なことを説明しました。今回からは実際の使い方を紹介していきます。 Web Consoleに接続するまずはWebブラウザでAWSのWeb Consoleに接続します。AWSの推奨ブラウザはFirefoxです。接続したら、「⁠AWS Management Consoleを利用する」をクリックし、Web Consoleのログイン画面に進みます（図1⁠）⁠。図1 次に、登録に使用したE-mailアドレスとパスワードを使ってWeb Consoleにログインします（図2⁠）⁠。図2 ログインしたら、タプの中からAmazon Elastic MapReduceを選択します（図3⁠）⁠。図3 新しいJob Flowを作成する次に、Create New Job Flowを選択し、新規にMapReduceのJobを作成

aoe-tk 2011/01/21

リンク

Googleの並列ログ解析向け言語「Sawzall」が公開されたので使ってみた | Preferred Research Blog

最近光麺にハマっている太田です。グーグル、分散処理のためにデザインされた言語「Sawzall」をオープンソースで公開 ? Publickeyで紹介されている、並列ログ解析向け言語「Sawzall」を試してみました。動かし方のドキュメントが少なかったので、紹介エントリを書いてみます。プロジェクトページドキュメント Sawzallについては、5年前に論文が発表されており一部概要を知ることは出来ましたが、先日実装がオープンソースで公開されました。論文の第一著者はUNIXやPlan9の開発者で知られるRob Pike氏です。 Interpreting the Data: Parallel Analysis with Sawzall MapReduceのOSS実装として「Hadoop」が良く知られていますが、Hadoop向けの言語としてはHiveやPig等が有名です。 Hive: MapRed

aoe-tk 2010/11/13

リンク

Hadoopを表計算のように使える「InfoSphere BigInsights」、IBMが発表

IBMがHadoopをベースにしたデータ分析ソフトウェア「InfoSphere BigInsights」を、先週ローマで開催された同社のイベント「IBM Information On Demand Europe 2010」で発表しました。 InfoSphere BigInsightsは、Apache Hadoopをベースにした分析エンジンの「BigInsights Core」と、その上で大規模データをWebブラウザを利用してスプレッドシートのようなユーザーインターフェイスで分析を行える「BigSheets」の2つから構成されます。 BigSheetsで表計算のようにデータ分析 BigInsights CoreのベースとなっているHadoopは、数百万件など大規模なデータを大量のサーバで分散処理するためのオープンソースのソフトウェアです。Yahoo!やFacebook、日本ではCookpad

aoe-tk 2010/05/24

リンク

はてなブックマーク

タグ

関連タグで絞り込む (8)

mapreduceに関するaoe-tkのブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2024年8月第3週）

今週のはてなブックマーク数ランキング（2024年8月第2週）

今週のはてなブックマーク数ランキング（2024年8月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス