makoto0327のブックマーク / 2011年10月18日

makoto0327 id:makoto0327

2011年10月18日のブックマーク (5件)

so-network.biz
makoto0327 2011/10/18
PHP　☆☆☆
リンク
[PHP] スクレイピング基本|WEBプログラム覚書
Tidyは、「Tidy HTML clean and repair utility」用のバインディングで、 HTML文書の誤りを直すだけでなく、操作することやドキュメントツリーを操作することも可能となります。とありますが、目的のノードを取得するのはhtml、bodyから辿っていかないとダメっぽい?ので面倒です。なのでtidyではぶっ壊れてるかもしれないhtml/xmlを修正して、パースは別のライブラリ使ったほうが便利です。お手軽なのはSimpleXMLでしょうか。xpathも利用できるし。ただxpathは重い処理になるとのことですが。。。またamp;が存在するとどういうわけかSimpleXMLが解釈できないため、 tidyのオプションでquote-nbspをfalseに指定するも下記掲示板の記述にあるように動かず。一体どういうことなんだ?? まぁ仕方ないのでereg_replaceで
makoto0327 2011/10/18
PHP　☆☆
リンク
[php]スクレイピングならHTMLScraping→SimpleXML→xpath | うえちょこ＠ぼろぐ
野暮用でphpのスクレイピングについていろいろと調べて、いくつかライブラリを見つけました。 HTML Scraping WebScraper Snoopy rhaco Tidy関数この中で、個人的に気に行ったのはHTML Scrapingです。このライブラリの手順は以下の通りです。 HTTP_RequestでHTML文書を取得します。サーバにTidy拡張が導入済みならTidy関数でHTMLをXMLに変換(修正)します。導入されていなければHTMLParserという同じ作者が作ったHTMLをXMLに整形するライブラリを用いてXML化します。 XML化した文書をSimpleXMLとして出力します。お好みでCache_Liteに保存できます。 HTML Scrapingライブラリを使えば、サーバにTidyが入っているかどうかにかかわらず、HTML文書をSimpleXMLオブジェクトに変換すること
makoto0327 2011/10/18
PHP
リンク
Webスクレイピングを可能にするPHPライブラリ・htmlSQL
html SQLはWebスクレイピング（部分的にHTML抽出）を可能にするPHPライブラリです。ソースが公開されていたのでご紹介します。 ※先日、お知らせさせて頂きましたように、この記事は僕が管理していた別のブログの過去記事を移行したもので正確性に欠ける可能性があります。何卒ご了承願います。 HTML内を部分的に取り出し、表示する事で、それを容易にするスクリプトがhtml SQLというPHPライブラリです。DOM解析をSQL風に指示するらしい。デモがありますのでご体感下さい。→html SQL – live example 以下のコードを使うようです。 <?php /* ** html SQL - Example 1 ** ** Shows a simple query */ include_once("../snoopy.class.php"); include_once("../htmlsq
makoto0327 2011/10/18
PHP
リンク
PHPでのスクレイピングに役立つライブラリ色々:phpspot開発日誌
PHPでのスクレイピングに役立つライブラリ - (DxD)∞ APIが提供されていないサービスから欲しい情報だけを取得するには、HTMLなどから自前でスクレイピングを行うしかありません。PHPでのスクレイピングに役立つライブラリなどをまとめてみました。PHPでのスクレイピングに役立つライブラリ色々が紹介されています。 HTML Scraping - XML化してDOMやXpathでアクセス WebScraper - XPathで要素にアクセス続きを見る PHPでスクレイピングすることって結構ありそうですが、これは活用できそうですね。
makoto0327 2011/10/18
PHP
リンク
- 2011年11月5日
- 2011年10月18日
- 2011年10月13日