from glob import glob files = glob('data/*.csv') len(files) # 10000 この 1万件の CSV ファイルを Pandas DataFrame として読み込みたい。 ちなみに検証用のデータは以下のようにして生成した。 (3列 x 10,000行 の CSV ファイル 10,000 個) import numpy as np import pandas as pd row_n = 10000 col_n = 3 columns = [f'col{i}' for i in range(col_n)] for i in range(10000): df = pd.DataFrame(np.random.randn(row_n, col_n), columns=columns) df.to_csv(f'data/{i:04}.csv',
定期的に CSV からデータを抽出する機会があり,抽出条件によって,今までは以下のような方法を使っていた. CSV を Excel で開いてフィルターを使う方法 CSV を grep / egrep などの Linux コマンドで絞り込む方法 CSV をAmazon S3 にアップロードして Amazon S3 Select でクエリを実行する方法 Rainbow CSV 新しい方法として VS Code の拡張機能「Rainbow CSV」を試すことにした.Rainbow CSV には多くの機能があり,例えば「ハイライト」や「CSVLint」や「RBQL (RainBow Query Language)」がある.データを抽出する用途だけでなく,CSV を確認するときにも便利で,普段から使える最高の拡張機能だった.以下からインストールできる. marketplace.visualstudi
俗にいう「使えないシステム」ってやつをつかまされたのかもしれない。 今、WEBアプリみたいので、業務ツール作っているんだけど完成が見えてきた段階で実はボロボロのものが出来上がってることに気が付いてきた。たとえば月報とか日報みたいなアウトプットが必要なデータが10種類ぐらいあるんだけど、全部CSVっていう言語でしか出せない。CSVをエクセルで開くとところどころ文字化けになってて全然使えないし、そもそも罫線もないしページングもされてない。社外のコンサルに聞いても、CSVは機械同士がやり取りするための言語で、人が使うデータはエクセルで出せるようにするのが普通って言っている。ベンダーにそういったら「それは無理」の一点張り。コンサルはベンダーの瑕疵だからなおさせろ、ベンダーはやらない、で膠着状態。CSVだけじゃなくてほかにも必要な集計が画面上でできなかったり、そもそも機能自体が欠落していたりとかして
─ 問題1 ─ data.csvファイルには、5人のプレイヤー(Alice, Bob, Jimmy, Kent, Ross)が二種類のゲーム(gameA, gameB)をプレイした結果が次のような形で格納されている。各ゲームの平均点を求めよ。 data.csv player,gameA,gameB Alice,84.0,79.5 Bob,20.0,56.5 Jimmy,80.0,31.0 Kent,90.5,15.5 Ross,68.0,33.0 data = File.read('data.csv') headers, *scores = data.lines.map { |line| line.chomp.split(',') } scores # => [["Alice", "84.0", "79.5"], ["Bob", "20.0", "56.5"], ["Jimmy", "80
東日本大震災に関連して、財団法人 地方自治情報センター(LASDEC)が、国民へ発信する重要情報をPDFやExcelではなくHTMLやCSVで提供するよう呼びかけている。容量が大きいファイルがサーバーや回線を圧迫しないようにすることと、携帯電話しか持っていない被災者でも閲覧しやすくすることが目的だ。 LASDECでは2011年3月18日に、地方公共団体へメーリングリストを通じて通知している。「アクセスが集中し、PDFやExcelファイル形式の場合、容量が大きく、サーバー・回線リソースを圧迫し、重要情報が閲覧できない事象が頻出しています」(LASDEC)。そこで、PDFやExcelファイルの代わりにHTMLやJPEG、CSVといった形式での提供を推奨。WordやExcelの文書も、「ファイル」メニューから「名前を付けて保存」を選び、ファイルの種類に「Webページ (*.htm,*html)」
今回の大震災に伴う原発事故であちこちで放射線の強度が公開されているが,多くはPDF形式で,数値が取り出しにくく,ひどいものは印刷してからスキャンした画像PDFである。いくつか重要なものはExcel/CSV化してとりあえず http://oku.edu.mie-u.ac.jp/~okumura/stat/data/ で公開しているが,もともと機械可読(自動処理可能)な形で提供してほしい。しかも,時間をかけてワープロできれいに罫線を引いて手打ちするのではなく,測定値を実時間で提供する仕組みを作ってほしい。なお,このようなデータ提供のセンスも情報リテラシー教育の一つとして学校で教えてほしい。 一番重要なデータは東京電力が提供する福島第一・第二原子力発電所のモニタリングの結果である。以前はプレスリリースからたどるのがわかりやすかったのでこのページをチェックしていたが,「3月18日福島第二原子力発電
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く