ApacheSparkで扱うobjectのSerializableの必要性について hiveやファイルからデータを読み込んだ直後値はRDD, Dataset, DataFrameになっていて、少ないデータに対して何回もfilter処理を行う必要がある場合に一旦collectして配列に変換しdriver内で処理したい場合もあると思うけど、データを読み込んだ際にnon-serializableなクラスに値をセットしていたらcollectで配列への変換時にエラーが発生したのでその際のメモ 例えば以下のようなjavaのクラスがあったとして、これをsparkで利用するとする public class IdsBean { private int id; public IdsBean(int id) { /* compiled code */ } public int getId() { /* comp