タグ

2018年6月11日のブックマーク (2件)

  • Sparkサンプル(Hishidama's Spark example Memo)

    概要 Sparkでのプログラミングは、Scalaのコレクションの関数の記述と似ている。 ScalaのコレクションではRangeやList等のインスタンスを作ってそれに対してmapやfilter関数を呼び出すが、 SparkではまずSpark用のオブジェクトを作り、そこからコレクションっぽいオブジェクトやファイルを読み込むイテレーターを生成する。 当初のSparkではRDDというクラスを使ってプログラミングしていたが、 Spark1.3からDataFrameというクラスが導入され、 Spark1.6からDatasetというクラスが導入された。Spark2.0ではDatasetが正式となっている。 RDDよりもDataFrameの方が(最適化が効いて)高速だが型情報が消えてしまう為、Datasetを使うのが良い。(DataFrameはDatasetに統合されている) 参考: yubessyさん

  • Minimalist C Libraries

    In the past year I’ve written a number of minimalist C libraries, particularly header libraries. The distinction for “minimalist” is, of course, completely arbitrary and subjective. My definition in this context isn’t about the library’s functionality being stupidly trivial or even necessarily simple. I’m talking about interface (API) complexity and the library’s run time requirements. Complex fun

    yubessy
    yubessy 2018/06/11