タグ

scrapingに関するlibkazzのブックマーク (7)

  • サーバサイドJavaScriptとjQueryでスクレイピング

    jQuery でスクレイピングできたらセレクタ使えるし便利かなーと思ったりしたんですが、Rhino と env-js を使うと超簡単にできたのでレポートしてみます。 Rhino と env-js って何ぞい? Rhino ってのは Java で書かれた JavaScript エンジンです。Rhino を使うとコマンドラインから JavaScript を実行できます。 Rhino には DOM が無いので単体では jQuery を実行することはできませんが、env-js という DOM ライブラリを使用するとこの辺はクリアできます。 env-js の中に jQuery を使ったサンプルがいくつか入ってますので、Java とか JavaScript とか詳しい方はそちらを見てもらった方が早いと思います。 使ってみる まず env-js をビルドしないといけないのでその辺の手順から説明します。

    サーバサイドJavaScriptとjQueryでスクレイピング
  • 日本語版 : IBM Bluemix

    IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant technologies such as generative AI, data science, AI, and open source.

    日本語版 : IBM Bluemix
    libkazz
    libkazz 2008/04/24
    クローラーサンプル
  • Webページの本文抽出 (nakatani @ cybozu labs)

    Webページの自動カテゴライズ の続き。 前回書いたとおり、パストラックで行っている Web ページのカテゴライズでは、Web ページの文抽出がひとつの鍵になっています。今回はその文抽出モジュールを公開しつつ、使っている技法をざっくり解説などしてみます。 モジュールの利用は至極簡単。require して analyse メソッドに解析したい html を与えるだけ。文字コードは UTF-8 です。 【追記】大事なこと書き忘れ。モジュールは Ruby1.8.5 で動作確認していますが、特別なことはしていないので、1.8.x なら動くと思います。 $KCODE="u" # 文字コードは utf-8 require 'extractcontent.rb' # オプション値の指定 opt = {:waste_expressions => /お問い合わせ|会社概要/} ExtractCont

  • libxml2でスクレイピング - スコトプリゴニエフスク通信

    ■[Python]libxml2でスクレイピング 川o・-・)<2nd life - rubyスクレイピングツールキット scrAPIで、紹介されているscrAPIというツールを知りました。 CSSセレクタで要素を取得するというアイディアは面白いと思うのですが、やっぱりXPathを使った方が手っ取り早いし、あとあと応用が利きそうな気もします。 試しに、Pythonとlibxml2を使って書いてみます。libxml2のHTMLパーサーは、ブロークンなHTMLも解析してくれるし、エンコーディングも上手く扱ってくれるので非常に便利です。 例えば、すべてのリンクを取得したい場合はこんな感じです。 import libxml2 doc = libxml2.htmlReadFile( 'http://www.hatena.ne.jp/', # url None, # encoding libxml

    libkazz
    libkazz 2007/05/28
    XPath>ScrAPIとのことですが。。。
  • pylori*style wiki - HTMLパーサ Hpricot

    Hpricotは Ruby用の HTML パーサです。スキャン部分は C 言語で書かれていて高速に動作します。 HTMLの解析や書き換えに威力を発揮する便利なライブラリです。 rubygemsを使うのが簡単です。 # gem install hpricot すると以下のようにプラットフォームを聞いてきます。Unix系OSであれば 1 を、mswin32 であれば 2 を選びます。 Select which gem to install for your platform (i386-freebsd6) 1. hpricot 0.4 (ruby) 2. hpricot 0.4 (mswin32) 3. Cancel installation コンパイルが始まり、インストールが行われます。 Building native extensions. This could take a while.

    libkazz
    libkazz 2007/04/09
    書き換え可能?なら使う
  • kizasiが解析 - CNET Japan

    価格比較サイトの価格.comの掲示板では、日々製品に対する疑問や感想などが書き込まれている。この書き込みの中で今最も話題になっているキーワードが何なのかを一覧表示するサービスが11月28日に始まる。 これはカカクコムが、ブログ上で話題の言葉を紹介するkizasi.jpを運営するシーエーシーと提携して実現するもの。kizasiで利用している言語解析エンジンを利用して価格.comの掲示板に書かれている文章を解析し、出現頻度などを元に話題のキーワードを選び出して表示する。 このキーワードが表示されるのは携帯電話カテゴリとなる。「新機種発売やMNP(番号ポータビリティ)などでユーザーからの注目度が高い」(両社)ためという。「各携帯端末について価格.comのユーザー間で今、何が語られているのかを視覚的に伝えることで、膨大な書き込みの中から一目で旬のキーワードや「生の声」を知る事が可能となり、掲示板

    kizasiが解析 - CNET Japan
  • ruby のスクレイピングツールキット scrAPI - 川o・-・)<2nd life

    http://blog.labnotes.org/category/scrapi/ rubyスクレイピングして web の情報を取得するのには、今まで正規表現か xpath でやってたので、わりと面倒でした。で、ふと scrAPI というスクレイピングツールキットを知ったのですが、これがかなり便利そう。 このツールキットを使うと、CSS3 なセレクタを記述することで、要素を取得することができます。たとえばとあるサイトのリンクを全部取得したければ、 require 'rubygems' require 'scrapi' require 'open-uri' require 'nkf' require 'pp' $KCODE = 'u' links = Scraper.define do process "a[href]", "urls[]"=>"@href" result :urls e

    ruby のスクレイピングツールキット scrAPI - 川o・-・)<2nd life
    libkazz
    libkazz 2006/12/04
    これだけじゃ分からん。添付のRDoc(英)を読む必要がありそう
  • 1