新年あけましておめでとうございます。今年もボチボチやっていきます。 本稿ではPHP製のWebスクレイピングライブラリGoutteを紹介します。 Goutte(グート)とはGoutteは必要十分な機能を持ったWebスクレイピングライブラリです。そもそもWebスクレイピングとい... 続きを読む
Node.js is growing rapidly; one of the biggest reasons for this is thanks to the developers who create amazing tools that significantly improve productivity with Node. In this article, we will go through the basic installation of Express, a d... 続きを読む
Web ページからデータを抽出してデータベースに突っ込むことに性的興奮を覚えるみなさん、 ScraperWiki 使うとキモチイイですよ。以上です。そうではないみなさんには少々の説明が必要かと思いますので少々書きます。ScraperWiki はスクレーパ(Web ページをス... 続きを読む
03:24こりゃ面白い。http://code.google.com/p/phantomjs/"PhantomJS is a minimalistic, headless, WebKit-based, JavaScript-driven tool"headless=スクリーンがない=コマンドと考えればいい。要はブラウザから画面と取り除いてJavaScriptによるスクリプティ... 続きを読む
PhantomJShttp://code.google.com/p/phantomjs/「PhantomJS is a minimalistic, headless, WebKit-based, JavaScript-driven tool.」だそうな。Windowsのコマンドライン上からHTML中の特定要素を抜き出すことができるっぽい。簡単な使い方こちらに載っている「... 続きを読む
phpQuery - pq();phpQuery is a server-side, chainable, CSS3 selector driven Document Object Model (DOM) API based on jQuery JavaScript Library. Library provides two interfaces - Object Oriented PHP and Command Line Interface (CLI). Library sec... 続きを読む
要約:ページから必要な部分だけをXPath式で抽出するPHP製汎用スクレイピングライブラリを作ったいままでスクレイピングを使ったサービス(レシピ検索、書籍在庫一括検索)を作ってきましたが、そこで使ったものを簡単に再利用できるように、PHP5で使える汎用ス... 続きを読む
Introducing four new PHP 5.3 components and Goutte, a simple web scraper | php|architect Symfony2にも入っているPHP 5.3ベースの便利ライブラリ集が紹介されていました。 ブラウザのシュミレーションをしたり、DOMを辿ったり、CSSセレクタ形式をXpathに変... 続きを読む
スクレイピングのチュートリアルを書いてみた。参考:http://nokogiri.rubyforge.org/nokogiri/Nokogiri.htmlまだまだたくさんのクラスやメソッドがあるが(読んでない)、HTMLのスクレイピングに限定すれば多分これくらいで十分。 (0) 前提知識Ruby、HTML、DOM、... 続きを読む
時代は便利になった物です。 MOONGIFT: » XMLをJSONにするXSLT「xml2json.xslt」:オープンソースを毎日紹介 xml2json.xsltを見ていたらma.la氏のAmazon最速検索を思い出した。あちらはAmazon AWS専用になるだろうが、xml2json.xsltはそれをもっと汎用的なものに... 続きを読む
Get more traffic to your site Use Dapper to create new means for people to access your content. Create RSS feeds, widgets, and APIs with your content and links. 続きを読む
使用するライブラリの中で、 json (JSONパーサ) と hpricot (XPath対応HTMLパーサ) は標準ライブラリではありませんが、コマンドラインで「gem install json」 のように入力するだけで簡単にインストールすることができます。 ソースコード いずれの SBM に... 続きを読む
Hpricotは Ruby用の HTML パーサです。スキャン部分は C 言語で書かれていて高速に動作します。 HTMLの解析や書き換えに威力を発揮する便利なライブラリです。 rubygemsを使うのが簡単です。 # gem install hpricot すると以下のようにプラットフォームを聞いて... 続きを読む
■ [ruby] RubyでHTMLとWebを操作するためのライブラリ、HpricotとWWW::Mechanize 今日は、RubyでWebサイトを解析するときに強い味方となるライブラリ、HpricotとWWW::Mechanizeを紹介します。 どちらも非常に強力なので、覚えておいて損はないよ! 以下ではま... 続きを読む