s-woolのブックマーク - はてなブックマーク

s-wool id:s-wool

ブックマーク / junaraki.net (1)

Jun Araki’s Blog | Python での日本語文字コード判定
EUC-JP、Shift_JIS、UTF-8 の文字コードが混在したテキストを解析する機会があって、その時にいくつか方法があったのですが、python の pykf と chardet を使って、文字コードを自動判定して全て EUC-JP に統一するというスクリプトを書きました。chardet は短い文字列に弱いらしいので second guess にしました。 # -*- coding: utf-8 -*- import sys import pykf import chardet def main(): f = open(sys.argv[1]) line = f.readline() while line: code_changed_line = to_euc(line) print code_changed_line line = f.readline() f.close() de
s-wool 2009/11/30
python

japanese

encoding
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx