タグ

HTMLスクレイピングに関するwitchstyleのブックマーク (2)

  • Ruby関連 HTML/Webスクレイピング・ライブラリ・レビュー

    ※[ブックマーク]ボタンの中に delicious, reddit, digg, Google+(G+) のボタンもあります。 HTML/Webのスクレイピング処理の観点から、有名どころのRubyのライブラリについて、現状(2010年10月時点)を調査した。調査項目は凡例に示すとおりである。ライブラリの比較・選定に際して、判断のひとつの材料として資することを、期待している。 なにかご意見がありましたら、お気軽にコメントをどうぞ。 2014-05-06追記: 新しいのはこちら→2014年版 ■凡例 ■の次に、ライブラリ名 (現時点(2010年)でのバージョン)を記す desc に、ライブラリの目的・機能仕様などの説明を記す update に、ライブラリの更新期間を記す。ここで、yyyy-と記されている場合、yyyy年から現時点でも更新されていることを表す url には、ライブラリのHPを記す

    Ruby関連 HTML/Webスクレイピング・ライブラリ・レビュー
  • スクレイピングで作る“まとめサイト”

    どんなサイトでも、マッシュアップすることができる。APIが公開されていなくてもいい。新たなまとめサイトを構築し、情報付加価値を高めるための手法を解説しよう。 さまざまなコンテンツを組み合わせて、好みに合ったページ(サービス)を作り上げる「マッシュアップ」。これの最たるものは、コンテンツ提供者が公開する「WebAPI」の組み合わせで実現するものだ。 しかし、利用する仕様を整備して、効果的なデータだけをメータデータ配信するWebAPIは、まだそれほど普及していない。つまりマッシュアップというキーワードから流行っている兆しはあっても、対象として使うことができるものは、意外と少ない。思い出してほしい。 このような状況を打開するのが、HTMLコンテンツを抜き出して加工する「スクレイピングscraping)」という手法だ。 このオンライン・ムックPlus「まとめサイト2.0」では、例として「ITme

    スクレイピングで作る“まとめサイト”
  • 1