Sparkでジョブ実行時にKey(またはKeyHash)毎に出力ファイル分けるためにはMultiTextOutput系のフォーマット追加するか、SparkSQLで区切ってしまうか、ですかね。これをストリーム化すれば・・?

kimutanskkimutansk のブックマーク 2017/04/25 16:00

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

Write to multiple outputs by key Spark - one Spark job

    How can you write to multiple outputs dependent on the key using Spark in a single Job. Related: Write to multiple outputs by key Scalding Hadoop, one MapReduce Job E.g. sc.makeRDD(Seq((1, "a"), (1...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう