[B! CSV] wasaiのブックマーク

【Excel】CSVファイルをダブルクリックするのは絶対NG！CSVファイルはPower Queryで取り込みましょう【いまさら聞けないExcelの使い方講座】

wasai 2020/12/03

リンク

Python で大量のファイルを並列で速く読み込む - Qiita

from glob import glob files = glob('data/*.csv') len(files) # 10000 この 1万件の CSV ファイルを Pandas DataFrame として読み込みたい。ちなみに検証用のデータは以下のようにして生成した。 (3列 x 10,000行の CSV ファイル 10,000 個) import numpy as np import pandas as pd row_n = 10000 col_n = 3 columns = [f'col{i}' for i in range(col_n)] for i in range(10000): df = pd.DataFrame(np.random.randn(row_n, col_n), columns=columns) df.to_csv(f'data/{i:04}.csv',

wasai 2019/06/03

リンク

CSV に SELECT / UPDATE クエリを実行できる VS Code の拡張機能「Rainbow CSV」 - kakakakakku blog

定期的に CSV からデータを抽出する機会があり，抽出条件によって，今までは以下のような方法を使っていた． CSV を Excel で開いてフィルターを使う方法 CSV を grep / egrep などの Linux コマンドで絞り込む方法 CSV をAmazon S3 にアップロードして Amazon S3 Select でクエリを実行する方法 Rainbow CSV 新しい方法として VS Code の拡張機能「Rainbow CSV」を試すことにした．Rainbow CSV には多くの機能があり，例えば「ハイライト」や「CSV Lint」や「RBQL (RainBow Query Language)」がある．データを抽出する用途だけでなく，CSV を確認するときにも便利で，普段から使える最高の拡張機能だった．以下からインストールできる． marketplace.visualstudi

wasai 2018/12/01

リンク

CSVってなによ状態で困ってます

俗にいう「使えないシステム」ってやつをつかまされたのかもしれない。今、WEBアプリみたいので、業務ツール作っているんだけど完成が見えてきた段階で実はボロボロのものが出来上がってることに気が付いてきた。たとえば月報とか日報みたいなアウトプットが必要なデータが10種類ぐらいあるんだけど、全部CSVっていう言語でしか出せない。CSVをエクセルで開くとところどころ文字化けになってて全然使えないし、そもそも罫線もないしページングもされてない。社外のコンサルに聞いても、CSVは機械同士がやり取りするための言語で、人が使うデータはエクセルで出せるようにするのが普通って言っている。ベンダーにそういったら「それは無理」の一点張り。コンサルはベンダーの瑕疵だからなおさせろ、ベンダーはやらない、で膠着状態。CSVだけじゃなくてほかにも必要な集計が画面上でできなかったり、そもそも機能自体が欠落していたりとかして

wasai 2014/11/14

リンク

Ruby標準添付ライブラリcsvのCSV.tableメソッドが最強な件について

─　問題１　─ data.csvファイルには、５人のプレイヤー（Alice, Bob, Jimmy, Kent, Ross）が二種類のゲーム（gameA, gameB）をプレイした結果が次のような形で格納されている。各ゲームの平均点を求めよ。 data.csv player,gameA,gameB Alice,84.0,79.5 Bob,20.0,56.5 Jimmy,80.0,31.0 Kent,90.5,15.5 Ross,68.0,33.0 data = File.read('data.csv') headers, *scores = data.lines.map { |line| line.chomp.split(',') } scores # => [["Alice", "84.0", "79.5"], ["Bob", "20.0", "56.5"], ["Jimmy", "80

wasai 2013/01/26

リンク

「重要情報はPDFやExcelではなくHTMLやCSVで」、地方自治情報センターが呼びかけ

東日本大震災に関連して、財団法人地方自治情報センター（LASDEC）が、国民へ発信する重要情報をPDFやExcelではなくHTMLやCSVで提供するよう呼びかけている。容量が大きいファイルがサーバーや回線を圧迫しないようにすることと、携帯電話しか持っていない被災者でも閲覧しやすくすることが目的だ。 LASDECでは2011年3月18日に、地方公共団体へメーリングリストを通じて通知している。「アクセスが集中し、PDFやExcelファイル形式の場合、容量が大きく、サーバー・回線リソースを圧迫し、重要情報が閲覧できない事象が頻出しています」（LASDEC）。そこで、PDFやExcelファイルの代わりにHTMLやJPEG、CSVといった形式での提供を推奨。WordやExcelの文書も、「ファイル」メニューから「名前を付けて保存」を選び、ファイルの種類に「Webページ (*.htm,*html)」

wasai 2011/03/29

データ改変が気になるなら、APIとかで提供するのも手ですね

リンク

データは自動処理可能な形で提供してほしい | Okumura's Blog

今回の大震災に伴う原発事故であちこちで放射線の強度が公開されているが，多くはPDF形式で，数値が取り出しにくく，ひどいものは印刷してからスキャンした画像PDFである。いくつか重要なものはExcel/CSV化してとりあえず http://oku.edu.mie-u.ac.jp/~okumura/stat/data/ で公開しているが，もともと機械可読（自動処理可能）な形で提供してほしい。しかも，時間をかけてワープロできれいに罫線を引いて手打ちするのではなく，測定値を実時間で提供する仕組みを作ってほしい。なお，このようなデータ提供のセンスも情報リテラシー教育の一つとして学校で教えてほしい。一番重要なデータは東京電力が提供する福島第一・第二原子力発電所のモニタリングの結果である。以前はプレスリリースからたどるのがわかりやすかったのでこのページをチェックしていたが，「3月18日福島第二原子力発電