タグ

scrapeに関するmackatoのブックマーク (2)

  • Web内容マイニング

    Web内容マイニング (NECインターネットシステム研究所 楠村幸貴) Web上には膨大の情報が存在している.そこでWebを巨大な知識ベースと捉え,Webから有用な知識を取り出す情報抽出技術の研究が行われている.この技術はWeb内容マイニングとも呼ばれており, 複数のサイトをまとめて提示する情報統合システム[1][2]や,ブログからの評判抽出システム[3][4][5],コミュニティサイトからの人間関係の抽出システム[6]など,近年多くの研究が行われているトピックとなっている.そこでブックマークではこれらのWeb内容マイニング技術を取り上げたい. [1] TSIMMIS, http://infolab.stanford.edu/tsimmis/tsimmis.html [2] ARANEUS, http://www.dia.uniroma3.it/Araneus/ [3] BlogWa

    mackato
    mackato 2007/06/26
    特定のレイアウトを持つサイトが提供する情報を抽出・解析する場合には,Webラッパーが利用可能である
  • mofo - a ruby microformat parser

    Get Started Immediately $ sudo gem install mofo -y ... install mofo and hpricot dependency ... $ irb -rubygems >> require 'mofo' => true >> fireball = hCard.find 'http://flickr.com/people/gruber/' => #<HCard:0x6db898 ...> >> fireball.properties => ["fn", "logo", "url", "n", "adr", "title", "nickname"] >> fireball.nickname => "gruber" >> fireball.url => "http://daringfireball.net/" >> fireball.n.f

  • 1