We’re getting things ready Loading your experience… This won’t take long.
We’re getting things ready Loading your experience… This won’t take long.
Universal Encoding Detector は Mozillaのコードが移植された、文字コードを判定するライブラリです。 とりあえずの使い方はとっても簡単で文字(列)をdetect()するだけで、推定されたエンコーディングと信頼度が返ってきます。 サポートされている文字コードも文句ありません。 「あ」1文字のように入力文字列が短すぎる場合の判定は常に信頼度0.505と出てましたがエンコーディングは合っていました。実用では1文字から推定するなんて皆無なので何も心配することはないでしょう。 < | >
Character encoding auto-detection in Python. As smart as your browser. Open source. >>> import urllib >>> urlread = lambda url: urllib.urlopen(url).read() >>> import chardet >>> chardet.detect(urlread("http://google.cn/")) {'encoding': 'GB2312', 'confidence': 0.99} >>> chardet.detect(urlread("http://yahoo.co.jp/")) {'encoding': 'EUC-JP', 'confidence': 0.99} >>> chardet.detect(urlread("http://amazo
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く