マルチバイト文字の含まれたテキストファイルを扱おうとすると、文字コードがまず問題になる。 そのファイルがいったい何でエンコードされているか分からないと、それを適切に扱うことは到底できない。 そんなとき使うと便利なのが、今回紹介する chardet というサードパーティ製のパッケージ。 今回の検証環境には Mac OS X を使った。 $ sw_vers ProductName: Mac OS X ProductVersion: 10.11.1 BuildVersion: 15B42 インストール まずは pip を使って chardet をインストールする。 $ pip install chardet 下準備 次に、文字コードを検出するのに使うテキストファイルを用意しよう。 $ cat << EOF > helloworld.txt こんにちは、世界 EOF 上記のコマンドで作ったテキスト