Answer (1 of 17): When I was getting started with using Apache Spark, I had the same question. From everything I heard, it seemed as if Spark does the same things as Mapreduce but better and faster. But, as it turns out that’s not the case. A few resources (linked below) have helped me with that ...
ウェブやインターネットコマースの隆盛によって、とてつもなく巨大なデータセットが出現し、そして、データマイニングによってそれらから情報が抽出されている。 巨大なデータに対するマイニングにおいては、従来から知られているアルゴリズムがそのままでは機能しないことが多い。巨大なデータを扱う上でこれまでとは違った処理戦略や技法が必要となる。 本書はデータマイニングにおいて重要な問題の解決に使われてきており、さらに巨大なデータセットに対しても使用できる実用的なアルゴリズムを、データベースやウェブ技術の分野で著名な原著者が解説する。 まず、データマイニングの本質や、データマイニングがどのように扱われているかを概観する。次に、今後非常に大量のデータの解析を行う際に、クラウドコンピューティングとともに重要視されると考えられ、この後の章の議論に必須のものとなるマップレデュースを解説する。その後、類似するアイテム
Hazelcast Inc.のシニアソフトウェアエンジニアであるChristoph Engelbert氏とのインタビューを紹介する。 InfoQ: Hazelcastという会社とそのビジネスモデルについて,簡単に説明をお願いします。 Christoph: Hazelcastはオープンソースのインメモリ・データグリッドソリューションで,Apache License 2のもとに公開されています。Map, List, Set, Queue, Lock, ExecutorServiceなど一般的なJava APIの多くを分散形式で実装した上に,パーティション化されたクラスタ環境用の機能を追加しています。分散型のクエリ(Predicate)や,特定ノード上で実行可能なRunnable/Callableクラスなどがその例です。 同時にHazelcastは,オープンソースプロジェクトの開発,配布,サポー
Kubernetes meetup-tokyo-13-customizing-kubernetes-for-ml-cluster
Google の鵜飼文敏さんによる講演会「大規模データ処理を可能にする Google の技術」に行ってきました。内容的には筑波大学で開かれたものと同じではないかと思います (「新ビジネスモデル」がそのままだったことなどから)。以下、上記記事に載っていないことを中心にメモから抜書きを。 此頃 Google にはやる物 現在 Google では Google の使命 (Google's mission is to organize the world's information and make it universally accessible and useful...) の早打ちが流行中。鵜飼さんは 50 秒程度、一番速い人は 30 秒程度。 Google の扱う情報 Google のいう「情報」はインターネット上のものだけに限らない (例: Google ブック検索)。 データセンター
概要 近年、GPUの性能は飛躍的に向上しており、グラフィック専用の処理装置としてではなく、数値計算等の汎用向けの処理に利用する、GPGPUに関する研究が盛んに行われている。GPUは内部に多くのコアを備えており、NVIDIA社のGeForce GTX 580では、512個ものコアを保持している。これらのコアすべてを効率よく利用することで、GPUの持っている高いパフォーマンスを引き出すことが出来るが、GPUの高い並列性を利用するためにはGPU特有の処理を実装する必要があり、GPUプログラミングになじみの無い利用者にとっては処理の記述が困難である。 そこで、GPUを大量のコアを持ったプロセッサだと考え、これらに対してMapReduceを適用することを検討する。親しみやすいMapReduceインターフェースにあてはめて処理を記述するだけで、GPUの高い並列性を生かしたプログラムが実装可能となる。加
Dunkheadとは Dunkheadはタイムスタンプ付きのテキストデータ(アクセスログなど)を手軽に可視化するためのソフトウェアです。Hadoop上で動作するMapReduceアプリケーションであるため、データのサイズが大きい、いわゆるビッグデータの場合にも使用することができます。 Dunkheadは、入力データとなるログをもとに、サーバ監視ツールなどで見られるような、横軸が時間、縦軸が目的の値となる画像を出力します。下記の例はNASAのスペースシャトル、ディスカバリー号のミッションの際に記録された、NASAのウェブサーバのアクセスログをDunkheadで可視化したものです(こちらについて、詳しくは『HadoopとDunkheadでNASAのウェブサーバのアクセスログを解析・可視化する』を参照ください)。 各種サーバのアクセスログなどは、特に活用することなく、いつのまにか大量に溜まってし
こんにちは。 Kafkaを試している最中で微妙ですが、最近使えるのかなぁ、と情報を集めているのが「Apache Spark」です。 MapReduceと同じく分散並行処理を行う基盤なのですが、MapReduceよりも数十倍速いとかの情報があります。 ・・・んな阿呆な、とも思ったのですが、内部で保持しているRDDという仕組みが面白いこともあり、 とりあえず資料や論文を読んでみることにしました。 まず見てみた資料は「Overview of Spark」(http://spark.incubator.apache.org/talks/overview.pdf)です。 というわけで、読んだ結果をまとめてみます。 Sparkとは? 高速でインタラクティブな言語統合クラスタコンピューティング基盤 Sparkプロジェクトのゴールは? 以下の2つの解析ユースケースにより適合するようMapReduceを拡張
Google News Personalization: Scalable Online Collaborative Filtering Abhinandan Das, Mayur Datar, Ashutosh Garg WWW 2007, May 8-12, 2007 Presented by: Jerry Fu 4/24/2008 1 1 Friday, May 9, 2008 Outline Introduction and problem Related work on recommendation algorithms Overview of combined recommendation algorithm Overview of MapReduce Algorithm implementation details Generation of recommendations
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く