steropeのブックマーク - はてなブックマーク

sterope id:sterope

ブックマーク / kudzu.hatenablog.com (1)

scrapy - 刺身の上にたんぽぽ乗せる日記
Python用のスクレイパーライブラリ。 http://scrapy.org/ 何がいいかというと、 IO処理の効率が大変高いので、多重ダウンロードなどが効率的リクエスト投げて、結果をとってくるところはある程度勝手にやってくれるスクレイピング自体がxpathが使えるのでめちゃくちゃ楽チンはまったのは２つあって、まず再帰的にクロールする方法がわからなかったけど、これは単純にRequestのオブジェクトをYieldすればいいだけだった。 yield Request(url, callback=self.parse_blah) 次にはまったのは文字コードの問題で、HTMLResponse*1で、自動判別した文字コードが間違えている場合に、手動で変換してからxpathに渡すのが、 response._encoding = "shift-jis" hxs = Html XPathSelector
sterope 2011/07/04
python

スクレイピング
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx