[B! scraping] libkazzのブックマーク

サーバサイドJavaScriptとjQueryでスクレイピング

jQuery でスクレイピングできたらセレクタ使えるし便利かなーと思ったりしたんですが、Rhino と env-js を使うと超簡単にできたのでレポートしてみます。 Rhino と env-js って何ぞい？ Rhino ってのは Java で書かれた JavaScript エンジンです。Rhino を使うとコマンドラインから JavaScript を実行できます。 Rhino には DOM が無いので単体では jQuery を実行することはできませんが、env-js という DOM ライブラリを使用するとこの辺はクリアできます。 env-js の中に jQuery を使ったサンプルがいくつか入ってますので、Java とか JavaScript とか詳しい方はそちらを見てもらった方が早いと思います。使ってみるまず env-js をビルドしないといけないのでその辺の手順から説明します。

libkazz 2011/01/10

リンク

日本語版 : IBM Bluemix

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

libkazz 2008/04/24

クローラーサンプル

リンク

Webページの本文抽出 (nakatani @ cybozu labs)

Webページの自動カテゴライズの続き。前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの本文抽出がひとつの鍵になっています。今回はその本文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。本モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。【追記】大事なこと書き忘れ。本モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont

libkazz 2007/10/31

リンク

libxml2でスクレイピング - スコトプリゴニエフスク通信

■[Python]libxml2でスクレイピング川o・-・）＜2nd life - ruby のスクレイピングツールキット scrAPIで、紹介されているscrAPIというツールを知りました。 CSSセレクタで要素を取得するというアイディアは面白いと思うのですが、やっぱりXPathを使った方が手っ取り早いし、あとあと応用が利きそうな気もします。試しに、Pythonとlibxml2を使って書いてみます。libxml2のHTMLパーサーは、ブロークンなHTMLも解析してくれるし、エンコーディングも上手く扱ってくれるので非常に便利です。例えば、すべてのリンクを取得したい場合はこんな感じです。 import libxml2 doc = libxml2.htmlReadFile( 'http://www.hatena.ne.jp/', # url None, # encoding libxml

libkazz 2007/05/28

XPath＞ScrAPIとのことですが。。。

リンク

pylori*style wiki - HTMLパーサ Hpricot

Hpricotは Ruby用の HTML パーサです。スキャン部分は C 言語で書かれていて高速に動作します。 HTMLの解析や書き換えに威力を発揮する便利なライブラリです。 rubygemsを使うのが簡単です。 # gem install hpricot すると以下のようにプラットフォームを聞いてきます。Unix系OSであれば 1 を、mswin32 であれば 2 を選びます。 Select which gem to install for your platform (i386-freebsd6) 1. hpricot 0.4 (ruby) 2. hpricot 0.4 (mswin32) 3. Cancel installation コンパイルが始まり、インストールが行われます。 Building native extensions. This could take a while.

libkazz 2007/04/09

書き換え可能？なら使う

リンク

kizasiが解析 - CNET Japan

価格比較サイトの価格.comの掲示板では、日々製品に対する疑問や感想などが書き込まれている。この書き込みの中で今最も話題になっているキーワードが何なのかを一覧表示するサービスが11月28日に始まる。これはカカクコムが、ブログ上で話題の言葉を紹介するkizasi.jpを運営するシーエーシーと提携して実現するもの。kizasiで利用している言語解析エンジンを利用して価格.comの掲示板に書かれている文章を解析し、出現頻度などを元に話題のキーワードを選び出して表示する。このキーワードが表示されるのは携帯電話カテゴリとなる。「新機種発売やMNP（番号ポータビリティ）などでユーザーからの注目度が高い」（両社）ためという。「各携帯端末について価格.comのユーザー間で今、何が語られているのかを視覚的に伝えることで、膨大な書き込みの中から一目で旬のキーワードや「生の声」を知る事が可能となり、掲示板の

libkazz 2006/12/21

リンク

ruby のスクレイピングツールキット scrAPI - 川o・-・）＜2nd life

http://blog.labnotes.org/category/scrapi/ ruby でスクレイピングして web の情報を取得するのには、今まで正規表現か xpath でやってたので、わりと面倒でした。で、ふと scrAPI というスクレイピングツールキットを知ったのですが、これがかなり便利そう。このツールキットを使うと、CSS3 なセレクタを記述することで、要素を取得することができます。たとえばとあるサイトのリンクを全部取得したければ、 require 'rubygems' require 'scrapi' require 'open-uri' require 'nkf' require 'pp' $KCODE = 'u' links = Scraper.define do process "a[href]", "urls[]"=>"@href" result :urls e

libkazz 2006/12/04

これだけじゃ分からん。添付のRDoc(英)を読む必要がありそう

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

scrapingに関するlibkazzのブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2025年6月第2週）

月間はてなブックマーク数ランキング（2025年5月）

今週のはてなブックマーク数ランキング（2025年6月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス