June 07, 201010:49 カテゴリwork 簡単!たった8行のコードで HTML取得&解析をするPythonスクリプト 簡単!たった13行のコードで HTML取得&解析をするPerlスクリプト を見てPythonならもっと簡単だなーと思ったので書いてみる。 import urllib2 from lxml import etree url = 'http://www.yahoo.co.jp' opener = urllib2.build_opener() opener.addheaders = [('User-agent','Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)')] tree = etree.parse(opener.open(url),parser=etree.HTMLParser()
飽きる前にそれなりに形になったのでリリースしておきます Python 2.5*とBeautifulSoup 3.0.7* or 3.1.0*の環境でとりあえず動くXPathEvaluatorです。 アーカイブファイル(ZIP):BSXPath.py: XPathEvaluator Extension for BeautifulSoup 上記ファイル(BSXPath.py)を使ったサンプルはこちら 【2009/04/05追記】 BSXPath.pyを使ったサービスを公開しました。 任意のサイトのフィードパターンを作成・共用できるサービス 使い方 from BSXPath import BSXPathEvaluator,XPathResult #*** 準備 document = BSXPathEvaluator(<html>) # html: HTMLテキスト # ※BSXPathEvalu
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く