エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
記事へのコメント1件
- 注目コメント
- 新着コメント
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
Scrapy で相対パスを解決して絶対パスに変換 for v1.0.4 - 無駄と文化
スクレイピングネタです。 Scrapy は Spider の perse() メソッドの中で新しい Request オブジェクトを ... スクレイピングネタです。 Scrapy は Spider の perse() メソッドの中で新しい Request オブジェクトを yield してあげるだけで、次々に URL を辿ってクローリングしていけるので便利ですね。 例えば、response.xpath("//a/@href").extract() とかすればページの中のリンクを取得するのも容易です。 ただし、取得したリンクの href が全て絶対パスで書かれている保証はありません。 もしも、相対パスで書かれていた場合は(そういう場合は多いでしょう)、相対パスを解決して絶対パスにしてあげなくてはいけません。 Python で相対パスの解決をしようと思えば、urlparse モジュールの urljoin() を使うのが普通です。 が、Scrapy には urlparse.urljoin() 相当のメソッドが最初から組み込まれているの
2016/03/07 リンク