タグ

sortに関するpick_mugetuのブックマーク (2)

  • LC_COLLATEの問題でuniqで丸数字が同一視されてしまう - @znz blog

    uniq -c で重複がないのを確認しようとしたら、 丸数字のところだけ違う行が同一視されてしまって、 2以上になることがあって困ったので、 原因を調べてみました。 現象 以下のように丸数字などが同一視されています。 $ cat n.txt ① ② $ LANG=ja_JP.utf8 uniq -c n.txt 2 ① $ LANG=C uniq -c n.txt 1 ① 1 ② $ uniq --version uniq (GNU coreutils) 8.20 Copyright (C) 2012 Free Software Foundation, Inc. ライセンス GPLv3+: GNU GPL version 3 or later <http://gnu.org/licenses/gpl.html>. This is free software: you are free to

  • データ集計コマンドを極めてシステム処理と業務速度を爆速化するお話 - Y's note

    Index データ集計コマンド 爆速で検索したいぜ! lookを使う LC_ALL=Cを設定する データのランダムサンプリングがしたいぜ! sedを使う awkを使う sortの--random-sortを使う Script言語を使う shufを使う ランダムサンプリング速度比較 合計と平均値を集計したいぜ! 列データ取得 重複行のカウント 合計値出力 平均値出力 複数ファイルのデータ結合がしたいぜ! 共通項目での結合 同じ行数での結合 まとめ データ集計コマンド joinコマンドが便利過ぎて生きるのが辛い - Yuta.Kikuchiの日記 lookコマンドによる二分探索が速すぎて見えない - Yuta.Kikuchiの日記 今日はデータ集計を行う上で絶対に覚えておいた方が良いコマンドと知識を紹介したいと思います。これを身につければシステム処理と業務効率化に大きく繋がると思います。この記

    データ集計コマンドを極めてシステム処理と業務速度を爆速化するお話 - Y's note
  • 1