最近、スクレイピングすることが多かったので、面倒くさくなって作りました。まだ、いろいろ途中ではありますが。 初Mouse、初git、初githubなんで、なんか変なことしてたらすみません。http://github.com/ktat/LinkSeeker/ スクレイピングするときは、以前書い... 続きを読む
@@ -8,7 +8,7 @@ ! 機能 :[[Nokogiri/search]]: XML/HTML要素の検索 -:[[Nokogiri/Document]]: +:[[Nokogiri/Node]]: XML/HTMLノードに対する操作 :[[Nokogiri/Builder]]: Rubyのブロックを使ったXML/HTML生成機能 :[[Nokogiri/SAX]]: SAXスタイルのXML/HTMLパ... 続きを読む
おすすめリンク | 転職ならen | 転職ならエン | 派遣ならen | アルバイトならen | 就職ならen | デジカメプリント | 年賀状 | ましかくプリント | 辞書 | | 2ch風無料掲示板 | 無料ブログ作成 | ソーシャルプロフィール | 無料掲示板 | 高機能無料掲示板 | 無料... 続きを読む
Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます... 続きを読む
id:miyagawa さんの Web::Scraper で、HTML::TreeBuilder::XPath の代わりに XML::LibXML を使うととても幸せになれそうなので実験してます。XML::LibXML に手を出す前に IRC で「tinyxpath とか htmlcxx とか使って xpath 周りを高速にしたい」とかボヤいてこ... 続きを読む
まえに作ったWeb::Scraperのjavascriptバージョンwebscraper.jsとXPathをてきとうに作ってくれる機能を追加したwebscraperp.jsにHTMLのドキュメントから繰り返し部分をみつけてSITEINFOをつくるAutoPagerize Iteration Detectorみたいなみためをくっつけて、取... 続きを読む
ページから必要な部分だけをXPath式で抽出するPHP製汎用スクレイピングライブラリを作った要約:ページから必要な部分だけをXPath式で抽出するPHP製汎用スクレイピングライブラリを作ったいままでスクレイピングを使ったサービス(レシピ検索、書籍在庫一括検索... 続きを読む