速度 MapReduceはHadoopクラスタのメモリを有効活用できていなかった。 SparkではRDD(Resilient Distributed Datasets)を使うことで、データをメモリに保存することができ、必要な場合にのみディスクへの保存を行うことができる。 これにより、SparkはHadoopよりも格段に高速である。 データ Hadoopはデータをディスクに保存するが、Sparkはメモリに保存する。 SparkはRDD(Resilient Distributed Datasets)とよばれるデータストレージモデルを用いる。RDDはnetwork IOを最小化するフォールトトレランスの機構を提供する。RDDの一部のデータが失われた場合、lineage(データに提供された処理の履歴)を元に再構築が行われる。このためフォールトトレランスのためのレプリケーションが不要となる。 これに
This document comprehensively describes all user-facing facets of the Hadoop MapReduce framework and serves as a tutorial. Ensure that Hadoop is installed, configured and is running. More details: Single Node Setup for first-time users. Cluster Setup for large, distributed clusters. Hadoop MapReduce is a software framework for easily writing applications which process vast amounts of data (multi-t
Please be advised our License Portal will be undergoing maintenance between March 15 10:30pm PST - March 16th 9:00am PST during which time users may experience intermittent performance issues. We apologize for the inconvenience. Please be advised that the Broadcom ERP system will be undergoing maintenance between March 28 7pm PST - Apr 1 7pm PST which will impact all new customer accounts created
この記事はMongoDB Advent Calender2013の21日目です。 MongoDBで手軽にMapReduceする方法について書かせていただきます。 #MongoDBでMapReduce 世間的にMongoでM/Rするのは情弱、世間知らず、自殺行為などと色々disられてはおりますが、やはりスキーマレスで好きなデータを突っ込んでおいて、あとで集計をかけるというお手軽さからいうとMongoのM/Rも充分選択肢としてありだと思います。 #前準備 実際に自分が今やっているプロジェクトのうちの1つに、apacheのアクセスログをfluentd経由でMongoに書き出しているものがあります。 ちなみにデフォルトのfluentdのプラグインだとpathが1フィールドに登録されてM/Rしずらいので、クエリストリングスをパースして1クエリを1フィールドに入れるout_exec_filterを自作
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く