タグ

csvに関するMukeのブックマーク (16)

  • PythonでCSVを高速&省メモリに読みたい - tkm2261's blog

    今日はPython (Pandas)で高速にCSVを読むことに挑戦したいと思います。 Kaggleに参加するたびに、イライラしていたので各実装の白黒はっきりさせようと思います。 R使いが羨ましいなぁと思う第一位がCSV読込が簡単に並列出来て速いことなので、 なんとかGILのあるPythonでも高速に読み込みたいと思います。 ただ、この検証ではコーディング量が多いものは検証しません。 CSV読込は頻出するので、フットワークの軽さが重要です。(オレオレライブラリ嫌い) Pickleは早いけど。。。 結論はDask使おう! 検証環境 データ 速度検証 pandas.read_csv() pandas.read_csv() (dtype指定) pandas.read_csv() (gzip圧縮) numpy.genfromtxt() pandas.read_csv() (chunksize指定 +

    PythonでCSVを高速&省メモリに読みたい - tkm2261's blog
  • Pandasを使ったデータ操作の基本 - ぴよぴよ.py

    データ分析の会社に転職してから3ヶ月。 最初の1ヶ月はPandasの扱いに当に困ったので、 昔メモしてたことを簡単にブログに記録しておく(o ・ω・)ノ 【追記】2017/07/31 0:36 データが一部間違ってたので修正しました Pandasとは pandasでよく使う型 テストデータについて 余談 Pandasでのデータ操作入門 pandasのload データ(csv)のロード データのサイズ データのカラム 行列から必要な列(カラム)を取り出す 条件にマッチするデータを取り出す 1. DataFrame.queryで取り出す True/FalseのSeries型を指定し、Trueの行だけを取り出す 追記(2017/12/14) 行列から必要な行番号を指定してを取り出す グループ分けと集計 新たな列を追加する 固有値を追加する 他の列を加工して新たな列を作る 他の複数列を加工して新

    Pandasを使ったデータ操作の基本 - ぴよぴよ.py
  • Forkwell のソースコードの複雑度(AbcSize)を計測してみた - Grooves開発ブログ

    Forkwell Portfolio の新しい機能を開発しながら、リファクタリングしている日々の @sinsoku です。 今日はリファクタリングの改善結果が気になったので調べてみました。 Ruby で AbcSize 20以上の数値、ファイル数の推移を出したいけど、簡単に出す方法ってあったりしないのかな。マージコミットを checkout して、AbcSize を計測して、csv にして、とかをするだけなんだけど、書くのがメンドイ。。。— 神速@リリカルエンジニア (@sinsoku_listy) 2017年7月11日 残念ながら簡単な方法は見つからなかったので、「メンドイ」という気持ちに負けずにスクリプトを書きました。 AbcSize とは Assignment: 変数の代入 Branch: 関数の呼び出し Condition: 条件分岐 から計測する複雑度です。Ruby だと Rub

    Forkwell のソースコードの複雑度(AbcSize)を計測してみた - Grooves開発ブログ
  • Web系の自分が想像と障害で学んだバッチ処理・設計の基本 - コンポツさん

    バッチ処理というのはそれ単体で勉強しようとするとなかなか何を勉強したらいいのかわからないことが多い。 特に経験がWeb系ばっかりだと、いざバッチ処理を実装しようとした時に基的なノウハウを知らないままに書いてしまうことが多い。 バッチ処理というのは実態を整理すると「何らかのトリガーを期に起動し、データをロード・加工・変換・集計してから、出力する」という事になる。 まぁ、INがあって処理してOUTがあるという点では関数だと考えてもいいだろう。 システムの利用者(人に限らない)のアクションとは直接関係ない処理であったり、利用者のアクションをトリガーとしていても、即時にレスポンスがいらないor返せない場合に バッチ処理を選択する事が多い。 実現方式はシェルスクリプト、LL言語、実行可能バイナリだったりするし、デーモンとして立ち上げる場合もある。 利用者の操作に対して対話的・同期的な処理はオンライ

    Web系の自分が想像と障害で学んだバッチ処理・設計の基本 - コンポツさん
  • Ruby標準添付ライブラリcsvのCSV.tableメソッドが最強な件について

    ─ 問題1 ─ data.csvファイルには、5人のプレイヤー(Alice, Bob, Jimmy, Kent, Ross)が二種類のゲーム(gameA, gameB)をプレイした結果が次のような形で格納されている。各ゲームの平均点を求めよ。 data.csv player,gameA,gameB Alice,84.0,79.5 Bob,20.0,56.5 Jimmy,80.0,31.0 Kent,90.5,15.5 Ross,68.0,33.0 data = File.read('data.csv') headers, *scores = data.lines.map { |line| line.chomp.split(',') } scores # => [["Alice", "84.0", "79.5"], ["Bob", "20.0", "56.5"], ["Jimmy", "80

  • 機械学習によるデータ分析 実践編

    演習用のスクリプトは以下にあります. Python http://nbviewer.ipython.org/gist/canard0328/a5911ee5b4bf1a07fbcb/ https://gist.github.com/canard0328/07a65584c134a2700725 R http://nbviewer.ipython.org/gist/canard0328/6f44229365f53b7bd30f/ https://gist.github.com/canard0328/b2f8aec2b9c286f53400 Read less

    機械学習によるデータ分析 実践編
  • jqコマンドでJSONをCSVに変換する - 唯物是真 @Scaled_Wurm

    jq 前に以下のニコニコ動画のデータセットの記事でも使いましたが、jqコマンドはJSONを変形したり一部を抽出したりするのにとても便利なコマンドです ニコニコ動画のデータセットが公開されたらしい - 唯物是真 @Scaled_Wurm マニュアルを見ると、条件に応じた処理とか最大値を求めるとか意外と複雑な機能も使うことができます jq Manual 軽量JSONパーサー『jq』のドキュメント:『jq Manual』をざっくり日語訳してみました | Developers.IO また以下のサイトでオンライン上で試せます jq play JSONをCSVに変換 JSONをCSVに直したい時があって使い方を調べたのでメモしておきます 単純な例 まずは単純に以下のようなJSONをCSVに変換します {"key1": 1, "key2": 2} 方法1 - 文字列展開 文字列中の\()の中身は展開さ

    jqコマンドでJSONをCSVに変換する - 唯物是真 @Scaled_Wurm
    Muke
    Muke 2015/07/20
  • CSVテキストをMarkdown形式のテーブルに変換するツールをつくった

    Markdown形式のテーブル記法をいつまでたってもうろ覚えで、毎回検索したり、変換サイトにアクセスするのが面倒だったのでツールをつくりました。嘘です。Go書きたかっただけです。 使い方 CSVテキストを標準入力から受け取って整形済みのMarkdown形式テーブルを出力します。 $ mdt < hoge.csv | headerA | headerB | | ------- | ---------------------- | | short | very very long content | 連携 コマンドラインツールなので、pbpasteやAutomatorと組み合わせて好きなように使えます。 以下は、Automatorのサービスとして登録したmdtをGitHubのIssue作成時に呼び出している様子です。 便利っぽい。 機能 CSV/TSVに対応 タブ区切りにも対応しているのでエク

    CSVテキストをMarkdown形式のテーブルに変換するツールをつくった
  • キトー君の悪い口コミ・失敗談と効果・販売店舗情報・安全と危険性・代用自作方法

    キトー君で真性包茎対策ができてしまいます。 包皮を引っ張ることで矯正できてしまうんですよ。 包皮輪狭窄の方も皮を伸ばすことでだんだんと広がっていきます。 テレビや雑誌でも紹介され多くの方が悩みを解決していますのでおすすめです。 そんなキトー君なのですが当に真性包茎・カントン包茎に効果があるのでしょうか?矯正できるのでしょうか、使い心地や評判が気になりませんか?そこで口コミを調べたら失敗談などの口コミが見つかりました。

    キトー君の悪い口コミ・失敗談と効果・販売店舗情報・安全と危険性・代用自作方法
  • Pythonで出力したCSV(UTF-8)がExcelで読み込めなくて困った話 - 唯物是真 @Scaled_Wurm

    Pythonで出力したUTF-8CSVを渡したら「文字化けしてExcelで読めない」と言われて困りました 原因は文字コードがUTF-8の時によく問題になるBOM(バイトオーダーマーク)です バイトオーダーマーク - Wikipedia UTF-8のファイルにはBOMが付いている場合と付いていない場合があります ExcelはBOMが付いていないと正しく読み込んでくれません なので、例えばメモ帳で開いて保存し直すと、BOMが付いてExcelでも開けるようになります 今回の問題とは逆にBOMがついていると動かないこともあって、以前BOMが付いたUTF-8のファイルをChromeに渡したら何故か動かなくて悩みました Google Chrome のユーザースクリプトで名前やバージョン番号が反映されない - 唯物是真 @Scaled_Wurm ちなみにPythonだと文字コードにutf-8ではなくu

    Pythonで出力したCSV(UTF-8)がExcelで読み込めなくて困った話 - 唯物是真 @Scaled_Wurm
  • 巨大なSJISのCSVファイルをfgetcsv関数で処理する - hnwの日記

    さて、前回記事「PHPでメモリ上に一時ファイルを作る」では、file_get_contents関数でCSVファイル全体を取得して文字エンコーディングの変換を行い、変換結果に対してfgetcsv関数を利用しました。しかし、CSVファイルが巨大な場合にはfile_get_contentsを使うとメモリ上限に引っかかってPHPが停止してしまいます。 もちろん、UTF-8CSVファイルに対してfgetcsvを利用するのであれば、どんな大きなCSVファイルだろうと処理することが可能です。なぜなら、fgetcsvはファイルを1行単位で読み込む関数ですから、1行分のメモリ消費だけでファイル全体を読み込み続けられるからです(正確にはストリーム上のデータはバッファリングされるので、バッファサイズ分のメモリは消費しますが)。 それでは、巨大なSJISのCSVファイルをfgetcsvで処理したい場合はどうすれ

    巨大なSJISのCSVファイルをfgetcsv関数で処理する - hnwの日記
  • PHP: fgetcsv - Manual

    fgetcsv( resource $stream, ?int $length = null, string $separator = ",", string $enclosure = "\"", string $escape = "\\" ): array|false fgets() に動作は似ていますが、 fgetcsv() は行を CSV フォーマットのフィールドとして読込み処理を行い、 読み込んだフィールドを含む配列を返すという違いがあります。 注意: この関数はロケール設定を考慮します。もし LC_CTYPE が例えば en_US.UTF-8 の場合、 1 バイトエンコーディングのファイルは間違って読み込まれるかもしれません。 パラメータ stream ファイルポインタは有効なものでなければならず、また fopen(), popen(), もしくは fsockopen() で正常

    PHP: fgetcsv - Manual
    Muke
    Muke 2013/02/13
  • PHPでCSVデータを出力する方法 – へんじがない。ただのポンコツのようだ。

    へんじがない。ただのポンコツのようだ。 ポンコツが今日も持ち場でガンバリつつ、 楽しく生きていくための備忘録ブログ。ぬわーーっっ!!2005年7月から絶賛「更新」中! 【この記事の所要時間 : 約 5 分】 ちょっとPHPCSVデータの出力を行う必要があったので、おさらいながら備忘録。ファイル名をつけてデータをCSV形式に書き出して保存する方法というので、以下のやり方はまずはベーシックな方法。 PHPCSVデータ出力 <?php // CSVファイル名の設定 $csv_file = “test.csv”; // CSVデータの初期化 $csv_data = “”; // CSVに書き出すデータ $data[0] = array(“月曜日”,”Monday”); $data[1] = array(“火曜日”, “Tuesday”); $data[2] = array(“水曜日”, “We

    PHPでCSVデータを出力する方法 – へんじがない。ただのポンコツのようだ。
    Muke
    Muke 2012/05/23
  • PHPでのCSV出力について

    こんにちは、中川です。 今日は、PHPでのCSV出力について書いてみようと思います。 CSV出力といえば、カンマ区切りの1行ずつのデータで出力すれば・・・と、簡単なイメージもありますが、実はいろいろと細かい対策が必要な処理のひとつです。 ■データ内の改行 データ内に改行文字がある場合、そのデータは「”」(ダブルクォーテーション)で囲う。 (例)

    PHPでのCSV出力について
    Muke
    Muke 2010/07/23
  • PHPでExcelファイルを読み込む·PHP Excel Reader MOONGIFT

    PHP Excel ReaderはPHP製のオープンソース・ソフトウェア。業務システムなどでは、ユーザが作ったExcelファイルをシステムに読み込ませると言ったニーズが多い。そんな時使われるのはCSVとして出力して読み込ませるという方法だ。 Webブラウザ上に表示したサンプル だがごくわずかなファイルであれば良いが、数百ものExcelファイルを読み込むとなると変換もひと手間になってしまう。そこで使ってみたいのはPHPExcelファイルを読み込むライブラリだ。かなり使えそうなのがPHP Excel Readerだ。 PHP Excel Readerはセルの値だけでなく、太字やイタリックと言った装飾の再現にも対応している。それだけではない。枠線やその色も取得し、再現が出来る。さらに埋め込まれた式を認識して、別なセルの値を参照することもできる。 元ファイル 再現性の高さはデモのExcelファイ

    PHPでExcelファイルを読み込む·PHP Excel Reader MOONGIFT
  • IDEA * IDEA

    ドットインストール代表のライフハックブログ

    IDEA * IDEA
  • 1