関数を利用したXPath式 「XPath」は、 既に昔の正規表現によるHTMLからの情報抽出を形骸化させるほどに流行っています。 ネット上にも、XPathを紹介しているページが沢山ありますが、ここでは、 普段あまりネット上で見ないXPathの関数を使って、 より強力なXPath式を紹介したいと思います。 レファレンス テキストノードではなくテキストを取り出す perlでいうtrを、XPathで使う テキストを X 文字以上含む要素の取り出す 特定の拡張子を持つリンクのみを取り出す まとめ テキストノードではなくテキストを取り出す 使用する関数の紹介 Function: string string(object?) (example) string(id('hoge')) = id が hoge の要素内のテキストを返す 案外知られてないですが、要素内にあるテキストをそのまま文字列の形で取り
無効なURLです。 プログラム設定の反映待ちである可能性があります。 しばらく時間をおいて再度アクセスをお試しください。
勉強がてらamazonのベストセラーを引っ張ってきて、ジャンルごとに 商品のランキング 商品説明 商品レビュー(参考になった上位3人) を並べてHTML形式に成形する、ということをやってみた。 「引っ張ってきて」の部分はperlのWeb::Scraperモジュールを利用するのだが、スクレイピングするためには「ページのどの部分を拾ってくるか」を定義してやる必要がある。 use Web::Scraper; 今日のCPANモジュール 今回は、XPathを指定してスクレイピングすることにした。XPathの指定は上記リンクの通り、Firebugを利用してみた。 さて、このFirebugでのXPath抽出だが、amazonで試すと相当「ウソ」が返ってくることがわかった。 上記の要素を拾ってきたいとする。Firebugが返す値は /html/body/div[4]/table/tr/td[2]/div/
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く