This page... Using the bundled web browser in scripts Debugging failed pages Complex tests with multiple web browsers Related... SimpleTest project page on SourceForge. SimpleTest download page on LastCraft. The developer's API for SimpleTest gives full detail on the classes and assertions available. SimpleTest's web browser component can be used not just outside of the WebTestCase class, but also
Hey folks, sorry it took me forever, but after my old Google Analytics API fell apart due to the fact that Google published a new interface that also came with new reports / exporting formats I didn't have the time to come up with a new one. Anyway, in a very productive CakePHP session with nate a couple weeks ago in Atlanta I finally implemented some new HttpSocket stuff that was needed (minimal
PHP5でのスクレイピングについて調査してみた。 正規表現でやってもいいのだけど。 PHP5でやるのだからSimpleXMLでやってみたい。 となると、いかに未整形HTMLを整形済にしてSimpleXMLとするかが 課題となる。これについて調べてみた。 ↓これが答え。なるものを見つけました。 HTMLParser(PEARのXML_HTMLSax3使用)orTidyで整形してるそうです。 HTMLをXML化してDOMやXPathで操作するWebスクレイピング用PHPクラス : Under Construction, Baby: # SimpleXML+HTMLParser or Tidy+HTTP_Request+Cache_Lite http://www.rcdtokyo.com/ucb/contents/i000851.php これで調査終了。というのも寂しいので。 もう少しお手軽にで
ブログ検索において、RSSは必ずしも記事全文を配信していないので、クローラーが記事のURLにアクセスし記事の本文を取得するケースが多いようです。 「gooブログ検索」「ブログレンジャー」開発者が語るブログ検索技術Yahoo!検索 スタッフブログ Yahoo!ブログ検索より細部改善のお知らせ上記の記事ではどちらも本文を抽出してくる、とあっさり書かれていますが100%に近い精度を実現するとなるとそう簡単ではないはず。 ちょっと調べてみたら以下のような取り組みが論文として読めました。英語圏の文献は、検索語が悪かったのかいまいち。「blog entry extract body text etc…」 NRI 技術創発 ブログ記事の自動分類により消費者意識の側面を捉える試み(PDF)なんでもRSS! HTML文書からのRSS Feed 自動生成 南野朋之 奥村学:人工知能学会研究会資料 SIG-SW
cURL " src="/arrow.png"> libcurl " src="/arrow.png"> PHP " src="/arrow.png"> ExamplesPHP/CURL Examples Collection We try to collect examples on how to program the PHP/CURL interface here. If you have any source snippests you want to share with the rest of the world, please let us know! ExampleDescriptionAuthor
今回は、為替レートをスクレイピングにより取得してみましょう。といっても、実際は為替レートが表示されているHTMLファイルをスクレイピングし、該当箇所を抜き出すだけなので、基本は殆ど同じです。 今回利用するサイトはひまわり証券株式会社 ブログパーツ FXレートウォッチャーです。元がブログパーツなので、取得するHTMLファイルの容量も少なくてよさそうなので、今回は、このサイトを利用してみます。 上記のサイトでは、<IFRAME>タグを利用して、パーツを表示するタイプです。なので、<IFRAME>タグのsrcのアトリビュートで指定されている、 を対象にしてみます。 サンプルソースを見ながら解説を進めます。 rate.php proxy.php ではプログラムを見てみましょう。 前回のはてなフォトライフではスクレイピング対象となるHTMLファイルを動的に変化させましたが、今回は固定ですね。3行目の
メソッドDOMDocument->createAttribute() - 新しい属性を作成するDOMDocument->createAttributeNS() - 関連付けられた名前空間に新しい属性を作成するDOMDocument->createCDATASection() - 新しい cdata ノードを作成するDOMDocument->createComment() - 新しい comment ノードを作成するDOMDocument->createDocumentFragment() - 新しい文書片を作成するDOMDocument->createElement() - 新しい要素ノードを作成するDOMDocument->createElementNS() - 関連付けられた名前空間に新しい要素ノードを作成するDOMDocument->createEntityReference() -
APIが提供されていないサービスから欲しい情報だけを取得するには、HTMLなどから自前でスクレイピングを行うしかありません。PHPでのスクレイピングに役立つライブラリなどをまとめてみました。 PerlやRubyには色々と便利そうなものが見つかるのですが、PHPにはなかなかこれといったものがないですね。 Webスクレイピングライブラリ HTMLScraping HTMLをXML化してDOMやXPathで操作できるクラス。主にHTTP_Request+HTMLParser(XML_HTMLSax3を含む)/Tidy+Cache_Liteという構成で、スクレイピングに必要なものが一通り揃っている。ライセンスはLGPL他。 WebScraper シンプルな汎用スクレイピングクラス。HTTP_Client+HTMLParser(XML_HTMLSax3を含む)という構成で、XPathで要素を抽出でき
Twitter Facebook B! Bookmark LINE Pocket Feedly HTMLをスクレイピング(scraping)してあれこれとするとき、僕はずっと正規表現に頼っていたのですが、 ページの構造が変化するとすぐに使えなくなってしまうし、時間がかかる割りに退屈な作業なので何とかならないかなと思っていました。 PHPで探していたのですが、XML(とかRSS)をパースする関数やライブラリは、良く目にするものの、HTMLを処理できるものはなかなか見つかりませんでした。 以下は、PHP(とかRuby、Perl)でHTMLをスクレイピングしたりパースするための方法。 PHPでスクレイピング&パース HTMLを整形式のXML文書に修正するPHPクラス HTMLを、整形式のXMLに変換してくれるライブラリ。PEARのXML_HTMLSax3が同梱されているので、これだけでちゃんと動
本日からPHPのメモを記述して行こうと思います。 さて早速今日のネタ。 ぎじゅっやさんにてfile_get_contentsでWebページへアクセスする際に、UserAgentを変更する方法が紹介されています。 では、これを応用してfile_get_contentsを使ってPOST形式でデータを送信してみましょう。 参考コード <?php //POSTデータ $data = array( "param1" => "data1", "param2" => "data2" ); $data = http_build_query($data, "", "&"); //header $header = array( "Content-Type: application/x-www-form-urlencoded", "Content-Length: ".strlen($data) ); $cont
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く