2019年11月26日のブックマーク (2件)

  • ApacheSparkで扱うobjectのSerializableの必要性について - teruuuのブログ

    ApacheSparkで扱うobjectのSerializableの必要性について hiveやファイルからデータを読み込んだ直後値はRDD, Dataset, DataFrameになっていて、少ないデータに対して何回もfilter処理を行う必要がある場合に一旦collectして配列に変換しdriver内で処理したい場合もあると思うけど、データを読み込んだ際にnon-serializableなクラスに値をセットしていたらcollectで配列への変換時にエラーが発生したのでその際のメモ 例えば以下のようなjavaのクラスがあったとして、これをsparkで利用するとする public class IdsBean { private int id; public IdsBean(int id) { /* compiled code */ } public int getId() { /* comp

    ApacheSparkで扱うobjectのSerializableの必要性について - teruuuのブログ
    yoppe9509
    yoppe9509 2019/11/26
    なるほど
  • Javaとシリアライズと互換性 - CLOVER🍀

    少し、オブジェクトのシリアライズ(直列化)とその影響について、調べる必要がありまして。 これまで、あまりシリアライズを使う、特にクラスの互換性的な面はあまり考慮しなかった(というか、シリアライズされたオブジェクトの授受は避けていた)のですが、ちょっと気にする必要が出てきました。実際に使用するかどうかは別ですが。 Javaのシリアライズの仕様は、こちらに記載があります。 Java オブジェクト直列化仕様 http://docs.oracle.com/javase/jp/6/platform/serialization/spec/serialTOC.html JDK 7版(英語) http://docs.oracle.com/javase/7/docs/platform/serialization/spec/serialTOC.html で、気になるところは、主にここですね。 直列化に影響する

    Javaとシリアライズと互換性 - CLOVER🍀
    yoppe9509
    yoppe9509 2019/11/26