EUC-JP、Shift_JIS、UTF-8 の文字コードが混在したテキストを解析する機会があって、その時にいくつか方法があったのですが、python の pykf と chardet を使って、文字コードを自動判定して全て EUC-JP に統一するというスクリプトを書きました。chardet は短い文字列に弱いらしいので second guess にしました。 # -*- coding: utf-8 -*- import sys import pykf import chardet def main(): f = open(sys.argv[1]) line = f.readline() while line: code_changed_line = to_euc(line) print code_changed_line line = f.readline() f.close() de