libkazzのブックマーク / 2007年5月28日 - はてなブックマーク

libkazz id:libkazz

2007年5月28日のブックマーク (2件)

http://www.skyarc.co.jp/01/564.html
libkazz 2007/05/28
縦書き

mt

UI
リンク
libxml2でスクレイピング - スコトプリゴニエフスク通信
■[Python]libxml2でスクレイピング川o・-・）＜2nd life - ruby のスクレイピングツールキット scrAPIで、紹介されているscrAPIというツールを知りました。 CSSセレクタで要素を取得するというアイディアは面白いと思うのですが、やっぱりXPathを使った方が手っ取り早いし、あとあと応用が利きそうな気もします。試しに、Pythonとlibxml2を使って書いてみます。libxml2のHTMLパーサーは、ブロークンなHTMLも解析してくれるし、エンコーディングも上手く扱ってくれるので非常に便利です。例えば、すべてのリンクを取得したい場合はこんな感じです。 import libxml2 doc = libxml2.htmlReadFile( 'http://www.hatena.ne.jp/', # url None, # encoding libxml
libkazz 2007/05/28
XPath＞ScrAPIとのことですが。。。

python

scraping
リンク
- 2007年5月29日
- 2007年5月28日
- 2007年5月26日

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx