kimutanskのブックマーク / 2017年4月25日 - はてなブックマーク

kimutansk id:kimutansk

2017年4月25日のブックマーク (1件)

Write to multiple outputs by key Spark - one Spark job
How can you write to multiple outputs dependent on the key using Spark in a single Job. Related: Write to multiple outputs by key Scalding Hadoop, one MapReduce Job E.g. sc.makeRDD(Seq((1, "a"), (1, "b"), (2, "c"))) .writeAsMultiple(prefix, compressionCodecOption) would ensure cat prefix/1 is a b and cat prefix/2 would be c EDIT: I've recently added a new answer that includes full imports, pimp an
kimutansk 2017/04/25
Sparkでジョブ実行時にKey（またはKeyHash）毎に出力ファイル分けるためにはMultiTextOutput系のフォーマット追加するか、SparkSQLで区切ってしまうか、ですかね。これをストリーム化すれば・・？

spark
リンク
- 2017年4月26日
- 2017年4月25日
- 2017年4月24日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx