[B! encode][python] lamichのブックマーク

lamich id:lamich

encodeとpythonに関するlamichのブックマーク (3)

Python3 – requestsの文字化け対策 | memorandum-plus
いつものごとくスクレイプの話ですが、requestsを使っていて文字化けに少々ハマりましたので、残しておきます。結果的にそもそも文字コードの扱いについてちゃんと理解できていなかったことが問題でしたー HTMLのcharset 今回スクレイプしようとしていたWebサイトはmetaタグのcharsetにEUC-JPが設定されていました requestsさんですが、基本的にはmetaタグではなくHTTPレスポンスヘッダのcontent-typeをみてcharsetを判断しているようです。が、content-typeが対象のWebで設定されておらず読めない場合はデフォルトのISO-8859-1となってしまうようです result = requests.get('スクレイプするURL') print(result.encoding) 実行結果 ISO-8859-1 ちょっとググったら以下のやり方で
lamich 2020/01/08
python

requests

UTF-8

encode

decode
リンク
Universal Encoding Detector: character encoding auto-detection in Python
Character encoding auto-detection in Python. As smart as your browser. Open source. >>> import urllib >>> urlread = lambda url: urllib.urlopen(url).read() >>> import chardet >>> chardet.detect(urlread("http://google.cn/")) {'encoding': 'GB2312', 'confidence': 0.99} >>> chardet.detect(urlread("http://yahoo.co.jp/")) {'encoding': 'EUC-JP', 'confidence': 0.99} >>> chardet.detect(urlread("http://amazo
lamich 2009/03/05
「Universal Encoding Detector は Mozillaのコードが移植された、文字コードを判定するライブラリです。」http://www.python.jp/Zope/PyLog/1143645503/index_html

encode

文字コード

文字化け

Python

Universal Encoding Detector
リンク
Python でエンコーディングを判定する - 傀儡師の館.Python：楽天ブログ
2008.05.25 Python でエンコーディングを判定する (1) テーマ：プログラミング言語 Python を使う(336) カテゴリ：Python Python でエンコーディングの自動判定をするにはいくつかの方法がある。文字列のコードを直接調べてその情報だけで判定するタイプと、HTML や XML ファイルに含まれるメタ情報なども利用し、そうした情報で判定できないものは文字コードの情報から判定するタイプがある。前者のタイプでは、pykf や、nkfpython、kanjilib などがある。pykf は、ShiftJIS, EUC-JP, JISコードを相互に変換するためのPython拡張モジュールで、Universal Encoding Detector や encutils のようには、メタ情報を使わない直接文字コードをチェックするタイプ。日本語のみを前提とするのであれば
lamich 2009/03/05
encode

文字コード

文字化け

Python

Universal Encoding Detector

pykf

nkfpython

kanjilib
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx