http://github.com/tokuhirom/html--treebuilder--libxml/tree/masterWeb::Scraper で複雑な HTML をパーズしようとすると、HTML::TreeBuilder::XPath がボトルネックになることが知られており、Web::Scraper には libxml ブランチが存在する(http://d.hatena.n... 続きを読む
さまざまなウェブ上のサービスにおける活動を、一日分まとめてはてなダイアリーに自動投稿します。ログイン はてなIDでログイン これは何? Twitter、はてなブックマーク、はてなフォトライフなどにおける活動を、一日分まとめてはてなダイアリーに自動投稿しま... 続きを読む
Get more traffic to your site Use Dapper to create new means for people to access your content. Create RSS feeds, widgets, and APIs with your content and links. 続きを読む
>> [Memo] What's Really New on the Web? 招待講演「大規模Webアーカイブの時空間分析とその実際」 @ www.textfile.org 経由で、 招待講演「大規模Webアーカイブの時空間分析とその実際」 @ Cafe Babe ふむ。 この中の、 しかし,Webページがいつ作られたのか... 続きを読む
■ [ruby] RubyでHTMLとWebを操作するためのライブラリ、HpricotとWWW::Mechanize 今日は、RubyでWebサイトを解析するときに強い味方となるライブラリ、HpricotとWWW::Mechanizeを紹介します。 どちらも非常に強力なので、覚えておいて損はないよ! 以下ではま... 続きを読む
Last modified:2007/10/11 04:39:10 Keyword(s): References:[programming] メニュー top products articles misc diary 検索 アクセス数の多いページ SVKを使ってみよう (34096) FrontPage (23594) Vim覚え書き (22879) WWW::Mechanizeの日本語リファレンス (2... 続きを読む
Announcing JscRUBYt! - no more win32 problems (?) Posted by admin Thanks to Paul Nikitochkin a.k.a. pftg, scRUBYt! made a great leap to ensure win32 compatibility. Paul created JscRUBYt! - the JRuby version of scRUBYt! which should be easy to... 続きを読む
scrAPIよりも使いやすい感じのHpricotですが、「innerText」が上手くHTMLエンティティーを戻してくれないので、違うメソッドをつけてみました。 require "rubygems" require 'hpricot' class Hpricot::Elem def [](a) CGI.unescapeHTML(get_attribute(a)) end d... 続きを読む
● String#scrape どうせお前らはあれだろ、scrAPI は強力だし、これこそ自分がまさに待望してた道具、使いこなすぜ!と意気込んでるんだけど、どれだけ決意してもあの複雑な引数に毎回挫折しちゃって、挫折つーかちょっと使いたいだけなのにパーザ(Scrape)用の... 続きを読む