タグ

ブックマーク / kudzu.hatenablog.com (1)

  • scrapy - 刺身の上にたんぽぽ乗せる日記

    Python用のスクレイパーライブラリ。 http://scrapy.org/ 何がいいかというと、 IO処理の効率が大変高いので、多重ダウンロードなどが効率的 リクエスト投げて、結果をとってくるところはある程度勝手にやってくれる スクレイピング自体がxpathが使えるのでめちゃくちゃ楽チン はまったのは2つあって、まず再帰的にクロールする方法がわからなかったけど、これは単純にRequestのオブジェクトをYieldすればいいだけだった。 yield Request(url, callback=self.parse_blah) 次にはまったのは文字コードの問題で、HTMLResponse*1で、自動判別した文字コードが間違えている場合に、手動で変換してからxpathに渡すのが、 response._encoding = "shift-jis" hxs = HtmlXPathSelector

    scrapy - 刺身の上にたんぽぽ乗せる日記
  • 1