wlbhiroのブックマーク - はてなブックマーク

SparkとHadoop MapReduceの違い
速度 MapReduceはHadoopクラスタのメモリを有効活用できていなかった。 SparkではRDD（Resilient Distributed Datasets）を使うことで、データをメモリに保存することができ、必要な場合にのみディスクへの保存を行うことができる。これにより、SparkはHadoopよりも格段に高速である。データ Hadoopはデータをディスクに保存するが、Sparkはメモリに保存する。 SparkはRDD（Resilient Distributed Datasets）とよばれるデータストレージモデルを用いる。RDDはnetwork IOを最小化するフォールトトレランスの機構を提供する。RDDの一部のデータが失われた場合、lineage（データに提供された処理の履歴）を元に再構築が行われる。このためフォールトトレランスのためのレプリケーションが不要となる。これに
wlbhiro 2017/03/08
Hadoop

MapReduce

Spark

Compare
リンク
sedの最短一致
これは、複数のマッチングが考えられる場合なるべく長いものにマッチする（最長一致）からである。この性質はsedに限ったことではなくて正規表現全般に言えることで、デフォルトでは最長一致である。最短一致を利用するためのオプションを持つ言語もあるが、sedには無いので何らかの工夫が必要となる。今回の場合は、閉括弧が現れた時点で一旦マッチングをやめるようにすればいいので、以下のように書くと思惑のデータがえられる。
wlbhiro 2016/07/01
Linux

sed
リンク
1

はてなブックマーク

タグ

ブックマーク / techtipshoge.blogspot.com (2)

お知らせ

今週のはてなブックマーク数ランキング（2025年8月第1週）

月間はてなブックマーク数ランキング（2025年7月）

今週のはてなブックマーク数ランキング（2025年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス

タグ

ブックマーク / techtipshoge.blogspot.com (2)

SparkとHadoop MapReduceの違い

sedの最短一致

お知らせ

今週のはてなブックマーク数ランキング（2025年8月第1週）

月間はてなブックマーク数ランキング（2025年7月）

今週のはてなブックマーク数ランキング（2025年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス