電車での移動時間を使ってLinux ZaurusでWebのスクレイピングの仕込みをするべく、RubyのHTMLパーサ等を用意してみました。 はけさんのはけのザウルス備忘録別館にHpricotの0.5がありますが、0.6が出ていたのでそれを。 WWW::Mechanizeにも興味があったので、それも。 幾霜の橘さんから「-static-libgcc」というオプションを教わったので、ruby-serialportとruby-termiosをlibgcc(3.4.4)不要版としてパッケージを作り直しました。 いずれのパッケージも、FocVさん版パッケージのRubyの構成に準拠してます。FocVさんのところにある1.8.6-p110を入れた環境で幾霜さんのzgcc34でセルフコンパイルしてます(Pure RubyなWWW::Mechanizeを除く)。 ダウンロード Hpricot 0.6 「ru
Yahoo! Site Explorer APIとHpricotで作るSEOツール (バックリンク編) CMSといえばSEOということで、CMS & SEO屋に転業しつつあるエアーズの加藤です。 そんな事情で日々SEO情報に目を通していると、先日こんな記事がありました。 Web担当者Forum このページはなぜ検索結果で上位にあるのか? を調べる方法 元記事が英語なのでしょうがないのですが、この記事の中で出てくる「 バックリンクのアンカーテキストを確認するためのツール 」が日本語サイトだとまったく役に立ちません。そこで、欲しければつくるということで、US Yahooの Site Explorer API と Hpricot をつかって自前で調べるスクリプトを書いてみました。 みんなが同じようなことやりだして世の中に余計な負荷が増えるのも難なので、以下抜粋です。 まずスクレイピングに必要な
iioka@見習いスクレイパー です。 うちの編集部の久次が書いたエントリーが CodeZine編集部ブログ史上、最大のはてなブックマークを集めたのですよ。 ・Web::Scraperが便利すぎて困るの巻 Perlのモジュールを使って、スクレイピング(Webサイトから任意の情報を抜き出す)やり方です。 しかし、Rubyにも「Hpricot」という同じようなモジュールがあり、便利さでは負けていません。 ということで、カッとなって組んでみました。 参考: ・[ruby] RubyでHTMLとWebを操作するためのライブラリ、HpricotとWWW::Mechanize - Greenbear Diary (2007-02-05) require 'hpricot' require 'open-uri' require 'kconv' # CodeZineからみだしを取り出す doc = Hpr
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く