タグ

spideringに関するHayatoのブックマーク (2)

  • Web::Scraperが便利すぎて困るの巻 (CodeZine編集部ブログ)

    こんにちは、編集マンの久次です。 なんだかPerlのWeb::Scraperが便利すぎで、やばいです。 これまでWWW::Mechanizeでごにょごにょやっていたのですが、一気にいろんなものが解決しました。 それで、いろいろ書いていたら、HTML::TreeBuilderのlook_downというメソッドも強力なことにいまさらながら、気づいたので勉強がてら、ためしにコードを書いてみました。 Webの自動制御に今日も夢が広がる…。 <参考> Web::Scraper - Web Scraping Toolkit inspired by Scrapi - search.cpan.org naoyaのはてなダイアリー - Web::Scraper ブログが続かないわけ | Web::Scraper 使い方(超入門) Web::Scraper超便利 scrAPI Cheat Sheet

  • extbody -- Blog&News本文領域抽出ツール

    ダウンロード等 extbody-0.1.1.tar.gz(右クリックで保存) ライセンスは、Apacheライセンスv2.0なので自己責任でご利用ください。 (上記ファイルはMercurialリポジトリのcloneにもなっています。) 動作に必要な環境 Python2.5 feedparser chardet また、内部でppkfを使用しております。(extbodyに内蔵しております。) インストール feedparserと、chardetをインストールしておきます。 以上が準備できれば、extbodyも以下のコマンドでインストールできます。 % python setup.py install 使用法 ayu@~% python Python 2.5.1 (r251:54863, Jun 17 2007, 08:50:55) [GCC 4.0.1 (Apple Computer,

  • 1