2009年11月18日11:32 カテゴリPHP PEAR の HTTP_Request でタイムアウトしない現象についてのまとめ さてさて、あるシステムで PHP PEAR の HTTP_Request を使ってRSSとかHTMLを取得して処理する機能があったわけなんです。よくありそうな機能。 んで、レスポンスの遅いサーバーへの対応としてタイムアウトを設定してたが、なんかうまくタイムアウトしてくれない現象に遭遇。 ググっってみると同様の現象に遭遇している人達がいましたが原因究明には至っていないようで解決策が見つからず、調べてみたことのまとめです。 まず、タイムアウトの設定ですが、HTTP_Request クラスのコンストラクタの2番目の引数に arrray("timeout" => "タイムアウト秒数")を指定していた。↓のように $http = new HTTP_Request
Twitter Facebook B! Bookmark LINE Pocket Feedly HTMLをスクレイピング(scraping)してあれこれとするとき、僕はずっと正規表現に頼っていたのですが、 ページの構造が変化するとすぐに使えなくなってしまうし、時間がかかる割りに退屈な作業なので何とかならないかなと思っていました。 PHPで探していたのですが、XML(とかRSS)をパースする関数やライブラリは、良く目にするものの、HTMLを処理できるものはなかなか見つかりませんでした。 以下は、PHP(とかRuby、Perl)でHTMLをスクレイピングしたりパースするための方法。 PHPでスクレイピング&パース HTMLを整形式のXML文書に修正するPHPクラス HTMLを、整形式のXMLに変換してくれるライブラリ。PEARのXML_HTMLSax3が同梱されているので、これだけでちゃんと動
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く