SparkはテキストファイルやJSON, CSVなど様々な形式のファイルを読み込むことができます。 HDFSから読み込んで、そのままRDDに変換されるので難しいこと考えずに、取り合え使えてとても便利です。 ただ、業務アプリを書いてると独自フォーマットのバイナリデータとか普通にあります。初めてのSparkを読むとSparkContext#newAPiHadoopFileやSparkContext#hadoopFile使えばできるよ! って書いてあるんですが、使い方がさっぱり記載されてません... Spark使ってる人はHadoopを通過してるからその辺の説明は不要なのか、単にニーズの問題か、私のグーグル力の無さか、いずれか分かりませんが、やり方と振る舞いを把握するのに結構時間がかかってしまいました。なので、備忘として現状の理解を残しておこうと思います。 以前、ミーハーに買ってみたけど、実は特