[B! data] U1and0のブックマーク

Big Data file formats

Apache Spark supports many different data formats, such as the ubiquitous CSV format and the friendly web format JSON. Common formats used mainly for big data analysis are Apache Parquet and Apache Avro. In this post, we will look at the properties of these 4 formats — CSV, JSON, Parquet, and Avro using Apache Spark. CSV CSV files (comma-separated values) are usually used to exchange tabular data

U1and0 2020/01/10

JSONのデメリットが浮き彫りになる。webで扱いやすいことくらいしかメリットないのでは。可視性、読み書き込み速度、容量がCSVにかなわない。

リンク

Compressing Your Big Data: Tips and Tricks - DZone

U1and0 2020/01/10

bigdata向きのフォーマット。gzipやzstd. JSONは遅い。これを解決するにはparquitやavaroをみてみるとよい。

リンク

Docker データボリュームコンテナをつくる | Unskilled?

Dockerでのデータの扱い Dockerで永続データを扱う際にいろいろな方法があることが勉強できました。いろいろな方法論がありなかなかに難しい分野ではありますが、勉強し甲斐のある部分でもあります。今回はデータボリュームコンテナ（以下データコンテナ）についてを書こうと思います。テストのホスト環境はGUN/LInux debian８で、dockerコマンドはsudoなしで実行できるように設定している状況です。最小限環境コンテナデータコンテナはなんのプロセスも動かす必要がないので、できるだけ最小限環境なコンテナであって欲しいです。今回はBusyboxというツールのイメージを使ったコンテナをデータコンテナとして仕上げていきたいと思います。最小限環境を作るのにうってつけのBusyBox BusyBoxとは標準UNIXコマンドの主要コマンドをまとめて1つの実行ファイル化したツールです。

U1and0 2019/06/25

リンク

「コマンドラインではじめるデータサイエンス」Jeroen Janssensら - StatModeling Memorandum

この本ではMasonとWiggins(2010)のデータサイエンスの定義に従って解析をすすめていきます。すなわち、(1)データの獲得、(2)データのクレンジング、(3)データの精査、(4)データのモデリング、(5)データの解釈の5ステップです。(5)はコンピュータの出番が少ないこともあり触れていません。(3)にはデータの可視化なども含まれているようです。僕が感じたこの本の主な対象は(1)(2)であり、まごうことなき前処理本です。コマンドラインの全オプションを説明するのではなく、例を通してsort, uniq, grep, cut, sample, head, tail, tr, sed, awk, curl, scrapeなどの基本的なコマンドラインをいかに組み合わせてデータを加工・集計するかの説明が丁寧であり、網羅的ではありませんがチュートリアルとして非常に有用だと思います。Linux

U1and0 2019/01/01

すごくよい講評です

リンク

テキストストリームとはどういうものでしょうか？調べると一行のテキストや、ひとまとまりのテキストデータのことなどと書かれています... - Yahoo!知恵袋

データの種類には大きく分けて4種類あります。ブロックデータ：全てが決まった大きさのデータで、中身のフォーマット等は特に規定が有りません。代表的なのがHDDのセクターや論理ブロックが有ります。レコード：データ： 1つのレコードにフォーマットが決められた1つ以上のデータが入っています。レコードの大きさは固定長又は可変長ですが、可変長の場合には長さを示す識別子が必ず入ります。ストリームデータ：何等かのデータの終わりを示す論理的識別子を持った連続した不定長のデータで、フォーマットも特に規定は有りません。代表的な物がネットワークを流れるビット・ストリームやASCIIZと呼ばれる最後に0x00がやってくるテキストストリームが有ります。不定形データ：有る意味ストリーム・データと似ていますが、データの終わりを示すのは物理的な物か全く有りません。代表的なのは磁気テープ上のデータ（レコード型やブ

U1and0 2018/11/15

data

リンク

はてなブックマーク

タグ

関連タグで絞り込む (10)

dataに関するU1and0のブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス