[B! csv] yukimori_726のブックマーク

[Python] 時系列CSVの読み込みを爆速化する - Qiita

時系列データを分析する時、csv/tsvファイルからデータを読み込む処理をすることがよくありますよね。数十MBに収まる容量のファイルならそこまで気にならないかもしれませんが、数百MB程度のファイルになると読み込むだけで数秒〜数十秒かかったりして、コードを実行する度に発生する待ち時間がストレスになってしまいます。ここでは少しの工夫で読み込みの処理を爆速化出来る方法を紹介します。実行環境手元のMBPで実行時間の計測を行います。

yukimori_726 2016/12/15

リンク

pandasでよく使う文法まとめ - Qiita

Pythonのデータ分析用ライブラリ「pandas」でよく使う文法をまとめました． Change log 2019-02-18　表示拡大の方法を更新 2018-05-06　コメント反映（pd.set_option('display.width', 100)） 2018-02-14　リンクの修正 2017-11-01　df.fillna(method='ffill')の説明を修正 2017-06-09　リンク切れ等の修正 2016-10-10　例の編集 2016-06-21　df.rolling, pd.date_range, pd.datetime, df.pivotの追加，その他の例の追加

yukimori_726 2016/11/02

pandas
csv

リンク

iperfの出力をCSV化する方法 - Qiita

iperf -c サーバーのIP -u -i 1 -yc [~] 20161006082657,192.168.0.3,65472,サーバーのIP,5001,4,0.0-1.0,132300,1058400 20161006082658,192.168.0.3,65472,サーバーのIP,5001,4,1.0-2.0,130830,1046640 20161006082659,192.168.0.3,65472,サーバーのIP,5001,4,0.0-2.3,296940,1047658 20161006082659,サーバーのIP,5001,192.168.0.3,65472,4,0.0-2.3,296940,1048896,1.547,0,202,0.000,0 こんな感じでCSVフォーマットで標準出力してくれます。 ver3系 ver3系ではCSV出力の機能がオミットされました。代わ

yukimori_726 2016/10/07

iperf
csv

リンク

pythonでcsvを読む方法 - 標準ライブラリ, pandas, numpy - minus9d's diary

pythonでcsvを読み込む方法についてまとめました。ライブラリによって微妙に読み込み方が異なるので大変です。この記事では、以下のdata.csvを読み込む場合を考えます。最初の行がヘッダ行で、それ以降の行がデータ行です。 a,b,c 2,5.6,1 1,7.0,0 3,6.2,1 3,7.9,1 方法1: 標準ライブラリのcsvを使う方法 csv.readerオブジェクトを使って一行ずつ読んでいく方法です。ヘッダ行の部分を特別扱いする必要があります。 import csv def open_with_python_csv(filename): data = [] with open(filename, 'r') as filename: reader = csv.reader(filename) # ヘッダ行は特別扱い header = next(reader) # 中身 for r

yukimori_726 2016/08/10

python
csv

リンク

Shoryukenでつくるバッチ処理基盤 - トレタ開発者ブログ

トレタのAPI開発を担当している芹沢です。トレタでは、長時間かかるバッチ処理を複数台のサーバ上で処理させて短時間で処理できるバッチ処理基盤をAWS上で構築しました。この仕組みについて説明します。目的短期的には以下の課題を解決するため、長期的には似たような要件が再度発生した時に、同じ手法で解決できることを目的に作りました。非同期でDBをデータソースとしたデータを加工してCSVファイルとして出力してS3にputしたいデータソースはDBに入っているリアルタイムのデータであることが求められる CSVファイルの作成は決められた時間内に完了する必要がある対象となるデータソースの量は日々増加し続けるが、常に決められた時間内にCSV作成が完了している必要がある難点今回の要件で技術的に難しい点は以下の２点です。 DBを直接参照しながら大量のデータを処理する例えば、データソースとしてDBから

yukimori_726 2016/06/09

リンク

JMeterの実行結果CSVデータをローカルMacにたてたElasticsearchとKibanaで可視化する | DevelopersIO

「JMeterの結果CSV、216万行か〜。これくらいだったらJMeterの「グラフ表示」で読み込んで見られるかな〜」 CPU「ブオオオオオオオオン！」はじめにシステムの負荷試験において、Apache JMeterのようなツールを使って試験を実施・結果を出力するケースもあると思います。結果ファイルのサイズがそれほど大きくない場合は、全データを計算する（JMeterでいう「統計レポート」）で問題ありませんが、例えば、長時間負荷をかけたので時系列でデータをグラフ化したい、といったことになると事情が変わってきます。JMeterの結果CSVは手元にあるので、なんとかこれを活用したいところではありますが、数百万行レベルのデータになると、とたんにExcelなどでは辛くなります（というか最大行数的に無理な気がします）。そこで、ちょうど、弊社木戸がElasticsearchシリーズを連載しているとこ

yukimori_726 2016/06/08

リンク

構造化テキストデータを操作するためのコマンドラインツールリスト | POSTD

テキストベースのファイル形式と、それぞれを（主にLinux上で）操作するためのコマンドラインツールのリストを掲載しています。目次 DSV XML,HTML JSON YAML,TOML INI 設定ファイルおまけ：単一ファイルデータベース用コマンドラインインタフェース（CLI）ライセンス情報開示 DSV CSV や TSV などを含む DSV（Delimiter-separated values、区切り文字で区切られた値）です。 Awk AwkはPOSIXで標準化されているコマンドラインツールで、DSVデータ処理用プログラミング言語です。Awkに関するリンクは以下のとおりです。 Awk.info — Awkに関する情報が豊富です。 AWK Vs NAWK Vs GAWK —プラットフォーム別実装の比較です。すでにプログラミング言語を使用してプログラミングをしている場合は、naw

yukimori_726 2016/06/03

リンク

Node.jsでCSVファイルを徹底的に編集しよう(前編)

10年以上前に作ったデータで、今でも現役で使っているファイルってあるでしょうか。もちろん、同じ仕事を10年以上続けていれば、そうしたデータもあることでしょう。しかし、データだけがあっても、それを読み書きするアプリケーションがなくなっては元も子もありません。OSはどんどんバージョンアップしていきますので、最新のOSでも常に、そのデータを読み書きするアプリケーションがなくてはなりません。そうして考えると、10年以上前に作ったデータが今も使えるというのは、とても汎用的な形式であることが分かります。今回は、汎用的なデータ形式の中でも、特に長い年月を生き残っているデータ形式のCSV形式を紹介します。というのも、先日の本連載で、Node.jsでライブラリの作り方を示したときに、簡単な例としてCSVファイルの読み書きを行うプログラムを紹介したのですが、「もっと詳しくCSVライブラリの使い方を知りたい」

yukimori_726 2016/05/17

node.js
csv

リンク

PythonでExcelのCSVファイルを扱う - Qiita

Pythonのcsvパッケージは大変便利です。面倒なエスケープ処理をちゃんと行ってくれます。とりわけ、Excelファイルで送られてきたファイルを処理するのに重宝します。なんといっても、dialect='excel'でExcel CSVをちゃんと読めます。ところが、日本語が絡むと問題は途端に厄介になります。問題の本質は何か。まず、ExcelのTSVの扱いに関して、以下のことが知られています。 Excelのtsvエクスポートはutf-16（BOM付き）である Excelが直接読めるのはBOM付きutf-16のtsvである（カンマ区切りはウィザードが必要） csv（カンマ区切り）出力や読み込みも可能だがおすすめできない（後述）このことからわかるのは、BOM付きutf-16ファイルを扱うのが最善ということです。これを扱う一番の方法は、ioパッケージを使うことです。さらっと書きましたが、ioパ

yukimori_726 2016/03/05

python
csv

リンク

Spark: Write to CSV file with header using saveAsFile

Mark NeedhamDecember 2nd, 2014Last Updated: December 2nd, 2014 In my last blog post I showed how to write to a single CSV file using Spark and Hadoop and the next thing I wanted to do was add a header row to the resulting row. Hadoop’s FileUtil#copyMerge function does take a String parameter but it adds this text to the end of each partition file which isn’t quite what we want. However, if we copy

yukimori_726 2015/09/28

spark
csv

リンク

Apache Spark User List - output tuples in CSV format

My output is a set of tuples and when I output it using saveAsTextFile, my file looks as follows: (field1_tup1, field2_tup1, field3_tup1,...) (field1_tup2, field2_tup2, field3_tup2,...) In Spark. is there some way I can simply have it output in CSV format as follows (i.e. without the parentheses): field1_tup1, field2_tup1, field3_tup1,... field1_tup2, field2_tup2, field3_tup2,... I could write a s

yukimori_726 2015/09/19

リンク

GitHub - uriborn/apache-spark-csv-sample

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

yukimori_726 2015/09/19

リンク

PythonでCSVの読み書き - Qiita

2014/07/28 読み込み（Pandas）の追加． 2014/11/28 pandasを使う場合をまとめ． import csv with open('some.csv', 'r') as f: reader = csv.reader(f) header = next(reader) # ヘッダーを読み飛ばしたい時 for row in reader: print row # 1行づつ取得できる

yukimori_726 2015/07/31

python
csv

リンク

Spark: Write to CSV file | Mark Needham

A couple of weeks ago I wrote how I’d been using Spark to explore a City of Chicago Crime data set and having worked out how many of each crime had been committed I wanted to write that to a CSV file. Spark provides a saveAsTextFile function which allows us to save RDD’s so I refactored my code into the following format to allow me to use that: import au.com.bytecode.opencsv.CSVParser import org.a

yukimori_726 2015/07/16

spark
csv

リンク

はてなブックマーク

タグ

関連タグで絞り込む (21)

csvに関するyukimori_726のブックマーク (14)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス