[B! spidering] Hayatoのブックマーク

Hayato id:Hayato

spideringに関するHayatoのブックマーク (2)

Web::Scraperが便利すぎて困るの巻 (CodeZine編集部ブログ)
こんにちは、編集マンの久次です。なんだかPerlのWeb::Scraperが便利すぎで、やばいです。これまでWWW::Mechanizeでごにょごにょやっていたのですが、一気にいろんなものが解決しました。それで、いろいろ書いていたら、HTML::TreeBuilderのlook_downというメソッドも強力なことにいまさらながら、気づいたので勉強がてら、ためしにコードを書いてみました。 Webの自動制御に今日も夢が広がる…。＜参考＞ Web::Scraper - Web Scraping Toolkit inspired by Scrapi - search.cpan.org naoyaのはてなダイアリー - Web::Scraper ブログが続かないわけ | Web::Scraper 使い方(超入門) Web::Scraper超便利 scrAPI Cheat Sheet
Hayato 2007/10/16
perl

scraping

spidering
リンク
extbody -- Blog&News本文領域抽出ツール
ダウンロード等 extbody-0.1.1.tar.gz(右クリックで保存）ライセンスは、Apacheライセンスv2.0なので自己責任でご利用ください。（上記ファイルはMercurialリポジトリのcloneにもなっています。）動作に必要な環境 Python2.5 feedparser chardet また、内部でppkfを使用しております。(extbodyに内蔵しております。）インストール feedparserと、chardetをインストールしておきます。以上が準備できれば、extbodyも以下のコマンドでインストールできます。 % python setup.py install 使用法 ayu@~% python Python 2.5.1 (r251:54863, Jun 17 2007, 08:50:55) [GCC 4.0.1 (Apple Computer,
Hayato 2007/09/13
python

spidering
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx