Apache Spark supports many different data formats, such as the ubiquitous CSV format and the friendly web format JSON. Common formats used mainly for big data analysis are Apache Parquet and Apache Avro. In this post, we will look at the properties of these 4 formats — CSV, JSON, Parquet, and Avro using Apache Spark. CSV CSV files (comma-separated values) are usually used to exchange tabular data
こんにちは、小澤です。 この記事はHadoop Advent Calendar 16日目のものとなります。 1人でHadoopの話をする Advent Calendar 2016 - Qiita Hadoop Advent Calendar 2016 | シリーズ | Developers.IO 前回はSparkでWord Countの実装して動かす方法を紹介しました。 今回はSpark SQLとDataFrame APIについて書かせていただきます。 Spark SQLとDataFrame API SparkはRDDに対して何かしらの処理を行った新しいRDDの生成を繰り返していくことで全体の処理フローを定義するものでした。 これに対してDataFrameというものはデータをテーブル構造で定義して、それに対する操作を記述していくものになります。 これはRやPythonなどデータ分析によく使
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く