タグ

ブックマーク / techtipshoge.blogspot.com (2)

  • SparkとHadoop MapReduceの違い

    速度 MapReduceはHadoopクラスタのメモリを有効活用できていなかった。 SparkではRDD(Resilient Distributed Datasets)を使うことで、データをメモリに保存することができ、必要な場合にのみディスクへの保存を行うことができる。 これにより、SparkはHadoopよりも格段に高速である。 データ Hadoopはデータをディスクに保存するが、Sparkはメモリに保存する。 SparkはRDD(Resilient Distributed Datasets)とよばれるデータストレージモデルを用いる。RDDはnetwork IOを最小化するフォールトトレランスの機構を提供する。RDDの一部のデータが失われた場合、lineage(データに提供された処理の履歴)を元に再構築が行われる。このためフォールトトレランスのためのレプリケーションが不要となる。 これに

    SparkとHadoop MapReduceの違い
  • sedの最短一致

    これは、複数のマッチングが考えられる場合なるべく長いものにマッチする(最長一致)からである。この性質はsedに限ったことではなくて正規表現全般に言えることで、デフォルトでは最長一致である。 最短一致を利用するためのオプションを持つ言語もあるが、sedには無いので何らかの工夫が必要となる。今回の場合は、閉括弧が現れた時点で一旦マッチングをやめるようにすればいいので、以下のように書くと思惑のデータがえられる。

  • 1