タグ

awkとperlに関するrichard_rawのブックマーク (3)

  • データ集計コマンドを極めてシステム処理と業務速度を爆速化するお話 - Y's note

    Index データ集計コマンド 爆速で検索したいぜ! lookを使う LC_ALL=Cを設定する データのランダムサンプリングがしたいぜ! sedを使う awkを使う sortの--random-sortを使う Script言語を使う shufを使う ランダムサンプリング速度比較 合計と平均値を集計したいぜ! 列データ取得 重複行のカウント 合計値出力 平均値出力 複数ファイルのデータ結合がしたいぜ! 共通項目での結合 同じ行数での結合 まとめ データ集計コマンド joinコマンドが便利過ぎて生きるのが辛い - Yuta.Kikuchiの日記 lookコマンドによる二分探索が速すぎて見えない - Yuta.Kikuchiの日記 今日はデータ集計を行う上で絶対に覚えておいた方が良いコマンドと知識を紹介したいと思います。これを身につければシステム処理と業務効率化に大きく繋がると思います。この記

    データ集計コマンドを極めてシステム処理と業務速度を爆速化するお話 - Y's note
    richard_raw
    richard_raw 2013/08/01
    lookコマンド。/LC_ALL=Cで高速化。/shufコマンドでランダムサンプリング。/pasteはよく使ってます。/grepの替わりにack or agを使えという話では無かった。
  • テキストファイルを処理するときのUnixコマンドまとめ - nokunoの日記

    個人的にテキストファイルを処理することが多いのですが,簡単な処理ならUnixのコマンドをパイプとリダイレクトで組み合わせてできることが多くあります.今回はそんななかでもちょっとマニアックなTIPSをまとめてみました. sortコマンドでタブ区切りのファイルを指定する最近知って驚愕したのがこれ.sortコマンドでタブ区切りのファイルを指定したいときは,Ctrl+v Tabでタブ文字を入力していたのですが,$ sort -t $'\t' -k 2,2 のようにしてタブ区切りで2番目のキーでソートすることができます. 1000行おきにデータをサンプリングする1000行おきにファイルからデータをサンプリングしたいときとかは,perlでワンライナーを書くのが速いようです.$ perl -ne '$i++; print unless ($i % 1000)' 某所のコードゴルフによるとこれだけ短くでき

    richard_raw
    richard_raw 2012/01/23
    ブックマーク数が多いですな……。/cutとpasteはよく使ってます。
  • コンピュータ系技術書を無料で読めるサイトまとめ - 情報科学屋さんを目指す人のメモ(FC2ブログ版)

    何かのやり方や、問題の解決方法をどんどんメモするブログ。そんな大学院生の活動「キャッシュ」に誰かがヒットしてくれることを祈って。 特に探すつもりはなかったけど、技術書を無料で読めるサイトに複数遭遇したので、出会った分だけでもとまとめてみた。無料で読めるサイトと言っても、基的には無料公開されているページへのリンク集という形。 O'REILLY Open Books http://oreilly.com/openbook/ リンク先の右にあるリンクの書籍が無料。左のジャンル分けは通常の書籍一覧なので注意。他のサイトに比べるとだいぶ少ない。 O'REILLY Open Feedback Publishing System (OFPS) http://ofps.oreilly.com/ 出版前の書籍を公開して、フィードバックを受け付けるというサイト。作りかけのも存在するが、最新の内容が読めると

    richard_raw
    richard_raw 2011/09/07
    英語の勉強に(ぇ
  • 1