タグ

PythonとEncodeに関するk_37toのブックマーク (2)

  • M雑記(2003-03-30)

    勉強中の C# の事をつらつら書いていこうかと思っていたのに 蓋を開けてみると CGI 関係の事ばっかり書いているような気がする日記です。 ぐっと来る検索語で飛んでこられたら翌日コメントがついてるかもです(笑) ■ [comp:python] 日語文字コード変換 python で EUC<->SJIS<->UTF-8 変換などを行おうと考えると大まかに選択肢は2つあります。独立した変換ライブラリの kconv と python1.6 から加わった Unicode サポートに準じる JapaneseCodecs です。 最近の python には unicode 型が存在し、u'Unicode String' で簡単に作成することができます。標準では普通の文字列型を unicode 型に変換するときには元の文字コードが ascii であることが仮定され、0x80 以上の文字コードが存在する

    k_37to
    k_37to 2007/02/16
    日本語の文字コード変換
  • Universal Encoding Detector: character encoding auto-detection in Python

    Character encoding auto-detection in Python. As smart as your browser. Open source. >>> import urllib >>> urlread = lambda url: urllib.urlopen(url).read() >>> import chardet >>> chardet.detect(urlread("http://google.cn/")) {'encoding': 'GB2312', 'confidence': 0.99} >>> chardet.detect(urlread("http://yahoo.co.jp/")) {'encoding': 'EUC-JP', 'confidence': 0.99} >>> chardet.detect(urlread("http://amazo

  • 1