タグ

ブックマーク / yut.hatenablog.com (2)

  • 5分で理解するPython文字コード - Y's note

    概要 Pythonの文字コード指定による日語文字化けの問題は誰もがハマるところ。 この記事では文字化けの解決方法を簡単にまとめたものになります。 実行環境はMacです。UnixやLinuxでもPath以外の箇所は同じように動作すると思います。 間違いの指摘などあればよろしくお願いします。 注意すべきこと 簡単にいうと以下の4点になりそうです。 1. ファイルの文字コード指定 2. ファイル内部の行頭での文字コード指定 3. Pythonの内部コードはUnicode(オブジェクト)として扱っている。 4. printなどの出力関数では端末の設定に合わせた文字コードが利用されている ※1,2の文字コード指定は一致させます。 1.ファイルの文字コード指定 サンプルとしてUTF-8で指定する例を挙げます。ファイル名はencode.pyです。 nkf --guess encode.py UTF-8

    5分で理解するPython文字コード - Y's note
  • データ集計コマンドを極めてシステム処理と業務速度を爆速化するお話 - Y's note

    Index データ集計コマンド 爆速で検索したいぜ! lookを使う LC_ALL=Cを設定する データのランダムサンプリングがしたいぜ! sedを使う awkを使う sortの--random-sortを使う Script言語を使う shufを使う ランダムサンプリング速度比較 合計と平均値を集計したいぜ! 列データ取得 重複行のカウント 合計値出力 平均値出力 複数ファイルのデータ結合がしたいぜ! 共通項目での結合 同じ行数での結合 まとめ データ集計コマンド joinコマンドが便利過ぎて生きるのが辛い - Yuta.Kikuchiの日記 lookコマンドによる二分探索が速すぎて見えない - Yuta.Kikuchiの日記 今日はデータ集計を行う上で絶対に覚えておいた方が良いコマンドと知識を紹介したいと思います。これを身につければシステム処理と業務効率化に大きく繋がると思います。この記

    データ集計コマンドを極めてシステム処理と業務速度を爆速化するお話 - Y's note
  • 1