kumicitのブックマーク / 2022年6月12日

PySparkデータ操作 - Qiita

本記事は、PySparkの特徴とデータ操作をまとめた記事です。 PySparkについて PySpark(Spark)の特徴ファイルの入出力入力：単一ファイルでも可出力：出力ファイル名は付与が不可（フォルダ名のみ指定可能）。指定したフォルダの直下に複数ファイルで出力。遅延評価ファイル出力時 or 結果出力時に処理が実行通常は実行計画のみが計算 Partitioning と Bucketing PySparkの操作において重要なApache Hiveの概念について。 Partitioning: ファイルの出力先をフォルダごとに分けること。読み込むファイルの範囲を制限できる。 Bucketing: ファイル内にて、ハッシュ関数によりデータを再分割すること。効率的に読み込むことができる。 PartitioningとBucketingの詳細についてはこちら(英語)をご覧ください。計算リ

kumicit 2022/06/12

リンク

PySparkの基本的な関数 - Qiita

Deleted articles cannot be recovered. Draft of this article would be also deleted. Are you sure you want to delete this article?

kumicit 2022/06/12

リンク

Apache Spark: SparkSQLリファレンス〜関数編・文字列関数〜

ascii(e: Column) 先頭単語のasciiコードを数値型(Int)で返却します。 sql: select ascii( e ) as n from ... DataFrame: df.select( ascii( $"e" ) as "n" ) 例) eが”apple”だとしたら97が返ります。

kumicit 2022/06/12

リンク

はてなブックマーク

タグ

2022年6月12日のブックマーク (3件)

PySparkデータ操作 - Qiita

PySparkの基本的な関数 - Qiita

Apache Spark: SparkSQLリファレンス〜関数編・文字列関数〜

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第2週）

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス