タグ

dataに関するU1and0のブックマーク (5)

  • Big Data file formats

    Apache Spark supports many different data formats, such as the ubiquitous CSV format and the friendly web format JSON. Common formats used mainly for big data analysis are Apache Parquet and Apache Avro. In this post, we will look at the properties of these 4 formats — CSV, JSON, Parquet, and Avro using Apache Spark. CSV CSV files (comma-separated values) are usually used to exchange tabular data

    Big Data file formats
    U1and0
    U1and0 2020/01/10
    JSONのデメリットが浮き彫りになる。webで扱いやすいことくらいしかメリットないのでは。可視性、読み書き込み速度、容量がCSVにかなわない。
  • Compressing Your Big Data: Tips and Tricks - DZone

    U1and0
    U1and0 2020/01/10
    bigdata向きのフォーマット。gzipやzstd. JSONは遅い。これを解決するにはparquitやavaroをみてみるとよい。
  • Docker データボリュームコンテナをつくる | Unskilled?

    Dockerでのデータの扱い Dockerで永続データを扱う際にいろいろな方法があることが勉強できました。 いろいろな方法論がありなかなかに難しい分野ではありますが、勉強し甲斐のある部分でもあります。 今回はデータボリュームコンテナ(以下データコンテナ)についてを書こうと思います。 テストのホスト環境はGUN/LInux debian8で、dockerコマンドはsudoなしで実行できるように設定している状況です。 最小限環境コンテナ データコンテナはなんのプロセスも動かす必要がないので、できるだけ最小限環境なコンテナであって欲しいです。 今回はBusyboxというツールのイメージを使ったコンテナをデータコンテナとして仕上げていきたいと思います。 最小限環境を作るのにうってつけのBusyBox BusyBoxとは標準UNIXコマンドの主要コマンドをまとめて1つの実行ファイル化したツールです。

    Docker データボリュームコンテナをつくる | Unskilled?
  • 「コマンドラインではじめるデータサイエンス」Jeroen Janssensら - StatModeling Memorandum

    このではMasonとWiggins(2010)のデータサイエンスの定義に従って解析をすすめていきます。すなわち、(1)データの獲得、(2)データのクレンジング、(3)データの精査、(4)データのモデリング、(5)データの解釈の5ステップです。(5)はコンピュータの出番が少ないこともあり触れていません。(3)にはデータの可視化なども含まれているようです。僕が感じたこのの主な対象は(1)(2)であり、まごうことなき前処理です。 コマンドラインの全オプションを説明するのではなく、例を通してsort, uniq, grep, cut, sample, head, tail, tr, sed, awk, curl, scrapeなどの基的なコマンドラインをいかに組み合わせてデータを加工・集計するかの説明が丁寧であり、網羅的ではありませんがチュートリアルとして非常に有用だと思います。Linux

    「コマンドラインではじめるデータサイエンス」Jeroen Janssensら - StatModeling Memorandum
    U1and0
    U1and0 2019/01/01
    すごくよい講評です
  • テキストストリームとはどういうものでしょうか?調べると一行のテキストや、ひとまとまりのテキストデータのことなどと書かれています... - Yahoo!知恵袋

    データの種類には大きく分けて4種類あります。 ブロックデータ: 全てが決まった大きさのデータで、中身のフォーマット等は特に規定が有りません。代表的なのがHDDのセクターや論理ブロックが有ります。 レコード:データ: 1つのレコードにフォーマットが決められた1つ以上のデータが入っています。レコードの大きさは固定長又は可変長ですが、可変長の場合には長さを示す識別子が必ず入ります。 ストリームデータ: 何等かのデータの終わりを示す論理的識別子を持った連続した不定長のデータで、フォーマットも特に規定は有りません。代表的な物がネットワークを流れるビット・ストリームやASCIIZと呼ばれる最後に0x00がやってくるテキストストリームが有ります。 不定形データ: 有る意味ストリーム・データと似ていますが、データの終わりを示すのは物理的な物か全く有りません。代表的なのは磁気テープ上のデータ(レコード型やブ

    テキストストリームとはどういうものでしょうか?調べると一行のテキストや、ひとまとまりのテキストデータのことなどと書かれています... - Yahoo!知恵袋
    U1and0
    U1and0 2018/11/15
  • 1