[B! PHP][php][scrape] lamichのブックマーク

lamich id:lamich

PHPとphpとscrapeに関するlamichのブックマーク (15)

Get a html tag and store in a php variable
lamich 2012/01/09
preg系の正規表現でサイズの大きいhtml処理すると文字列が消えるバグがあるのでそれを回避するtips

php

parse

scrape

xpath

get_tag

tips
リンク
SimpleTest documentation for the scriptable web browser component
This page... Using the bundled web browser in scripts Debugging failed pages Complex tests with multiple web browsers Related... SimpleTest project page on SourceForge. SimpleTest download page on LastCraft. The developer's API for SimpleTest gives full detail on the classes and assertions available. SimpleTest's web browser component can be used not just outside of the WebTestCase class, but also
lamich 2011/08/17
php

crawling

scrape
リンク
New Google Analytics API / DataSource! » Debuggable - Node.js Consulting
Hey folks, sorry it took me forever, but after my old Google Analytics API fell apart due to the fact that Google published a new interface that also came with new reports / exporting formats I didn't have the time to come up with a new one. Anyway, in a very productive CakePHP session with nate a couple weeks ago in Atlanta I finally implemented some new HttpSocket stuff that was needed (minimal
lamich 2009/03/02
analytics

download

scrape

google

seo

referer

cakePHP

php

lib
リンク
https://www.openvista.jp/archives/note/2008/php-scraing-library/?2008/php-scraing-library/
lamich 2009/03/02
php

scrape

simpleXML

DOM

tidy

download

lib

HTTP_Client
リンク
PHP5、未整形HTMLをSimpleXMLへ変換 - goungoun技術系雑記帳
PHP5でのスクレイピングについて調査してみた。正規表現でやってもいいのだけど。 PHP5でやるのだからSimpleXMLでやってみたい。となると、いかに未整形HTMLを整形済にしてSimpleXMLとするかが課題となる。これについて調べてみた。 ↓これが答え。なるものを見つけました。 HTMLParser(PEARのXML_HTMLSax3使用)orTidyで整形してるそうです。 HTMLをXML化してDOMやXPathで操作するWebスクレイピング用PHPクラス : Under Construction, Baby: # SimpleXML＋HTMLParser or Tidy＋HTTP_Request＋Cache_Lite http://www.rcdtokyo.com/ucb/contents/i000851.php これで調査終了。というのも寂しいので。もう少しお手軽にで
lamich 2009/03/02
php

scrape

simpleXML

DOM

tidy
リンク
zuzara.com » ブログの記事本文を抽出するスクリプトをつくってみた
ブログ検索において、RSSは必ずしも記事全文を配信していないので、クローラーが記事のURLにアクセスし記事の本文を取得するケースが多いようです。「gooブログ検索」「ブログレンジャー」開発者が語るブログ検索技術 Yahoo!検索スタッフブログ　Yahoo!ブログ検索より細部改善のお知らせ上記の記事ではどちらも本文を抽出してくる、とあっさり書かれていますが100%に近い精度を実現するとなるとそう簡単ではないはず。ちょっと調べてみたら以下のような取り組みが論文として読めました。英語圏の文献は、検索語が悪かったのかいまいち。「blog entry extract body text etc…」 NRI 技術創発　ブログ記事の自動分類により消費者意識の側面を捉える試み（PDF）なんでもRSS! HTML文書からのRSS Feed 自動生成　南野朋之奥村学：人工知能学会研究会資料 SIG-SW
lamich 2009/03/02
algorithm

php

extract

scrape

layout

sidebar

content

html

rss
リンク
libcurl - PHP Binding examples
cURL " src="/arrow.png"> libcurl " src="/arrow.png"> PHP " src="/arrow.png"> ExamplesPHP/CURL Examples Collection We try to collect examples on how to program the PHP/CURL interface here. If you have any source snippests you want to share with the rest of the world, please let us know! ExampleDescriptionAuthor
lamich 2009/02/13
curl

php

sample

example

LWP

scrape

POST
リンク
https://b.hatena.ne.jp/dennenn/php/
lamich 2009/01/17
php

scrape

file_get_contents
リンク
phpによるスクレイピング処理入門:7. 例2.為替レートを取得してみる
今回は、為替レートをスクレイピングにより取得してみましょう。といっても、実際は為替レートが表示されているHTMLファイルをスクレイピングし、該当箇所を抜き出すだけなので、基本は殆ど同じです。今回利用するサイトはひまわり証券株式会社ブログパーツ FXレートウォッチャーです。元がブログパーツなので、取得するHTMLファイルの容量も少なくてよさそうなので、今回は、このサイトを利用してみます。上記のサイトでは、<IFRAME>タグを利用して、パーツを表示するタイプです。なので、<IFRAME>タグのsrcのアトリビュートで指定されている、を対象にしてみます。サンプルソースを見ながら解説を進めます。 rate.php proxy.php ではプログラムを見てみましょう。前回のはてなフォトライフではスクレイピング対象となるHTMLファイルを動的に変化させましたが、今回は固定ですね。3行目の
lamich 2009/01/17
finance

trader

php

scrape

fx
リンク
Loading...
lamich 2008/10/06
PDF

php

scrape

read
リンク
DOM 関数
メソッドDOMDocument->createAttribute() - 新しい属性を作成するDOMDocument->createAttributeNS() - 関連付けられた名前空間に新しい属性を作成するDOMDocument->createCDATASection() - 新しい cdata ノードを作成するDOMDocument->createComment() - 新しい comment ノードを作成するDOMDocument->createDocumentFragment() - 新しい文書片を作成するDOMDocument->createElement() - 新しい要素ノードを作成するDOMDocument->createElementNS() - 関連付けられた名前空間に新しい要素ノードを作成するDOMDocument->createEntityReference() -
lamich 2008/05/04
DOMElement

scrape

DOM

php

function

DOMDocument
リンク
PHPでのスクレイピングに役立つライブラリ - (DxD)∞
APIが提供されていないサービスから欲しい情報だけを取得するには、HTMLなどから自前でスクレイピングを行うしかありません。PHPでのスクレイピングに役立つライブラリなどをまとめてみました。 PerlやRubyには色々と便利そうなものが見つかるのですが、PHPにはなかなかこれといったものがないですね。 Webスクレイピングライブラリ HTML Scraping HTMLをXML化してDOMやXPathで操作できるクラス。主にHTTP_Request+HTMLParser(XML_HTMLSax3を含む)/Tidy+Cache_Liteという構成で、スクレイピングに必要なものが一通り揃っている。ライセンスはLGPL他。 WebScraper シンプルな汎用スクレイピングクラス。HTTP_Client+HTMLParser(XML_HTMLSax3を含む)という構成で、XPathで要素を抽出でき
lamich 2008/03/14
links

matome

php

scrape

library

htmlSQL

Tidy

HTTP_Client

HTMLScraping

rhaco
リンク
HTMLの要素をSQLのように取り出せるPHPのライブラリ『htmlSQL』 | IDEA*IDEA
We'll be back soon! Our site is currently undergoing maintenance. Please check back later.
lamich 2007/11/12
sql

php

html

DOM

scrape
リンク
HTMLをスクレイピングして解析(パース)する - まるさんかくしかく Tech学習と入門ログ
Twitter Facebook B! Bookmark LINE Pocket Feedly HTMLをスクレイピング(scraping)してあれこれとするとき、僕はずっと正規表現に頼っていたのですが、ページの構造が変化するとすぐに使えなくなってしまうし、時間がかかる割りに退屈な作業なので何とかならないかなと思っていました。 PHPで探していたのですが、XML(とかRSS)をパースする関数やライブラリは、良く目にするものの、HTMLを処理できるものはなかなか見つかりませんでした。以下は、PHP(とかRuby、Perl)でHTMLをスクレイピングしたりパースするための方法。 PHPでスクレイピング＆パース HTMLを整形式のXML文書に修正するPHPクラス HTMLを、整形式のXMLに変換してくれるライブラリ。PEARのXML_HTMLSax3が同梱されているので、これだけでちゃんと動
lamich 2007/11/03
scrape

xml

ruby

perl

php

crawl
リンク
file_get_contentsでPOSTデータ送信 - 覇王色を求めて
本日からPHPのメモを記述して行こうと思います。さて早速今日のネタ。ぎじゅっやさんにてfile_get_contentsでWebページへアクセスする際に、UserAgentを変更する方法が紹介されています。では、これを応用してfile_get_contentsを使ってPOST形式でデータを送信してみましょう。参考コード <?php //POSTデータ $data = array( "param1" => "data1", "param2" => "data2" ); $data = http_build_query($data, "", "&"); //header $header = array( "Content-Type: application/x-www-form-urlencoded", "Content-Length: ".strlen($data) ); $cont
lamich 2007/10/06
php

post

file_get_contents

scrape

mechanize

stream_context_create

HTTP_Client

curl
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx