タグ

スクレイピングに関するkumahosiのブックマーク (2)

  • スクレイピングで作る“まとめサイト”

    どんなサイトでも、マッシュアップすることができる。APIが公開されていなくてもいい。新たなまとめサイトを構築し、情報付加価値を高めるための手法を解説しよう。 さまざまなコンテンツを組み合わせて、好みに合ったページ(サービス)を作り上げる「マッシュアップ」。これの最たるものは、コンテンツ提供者が公開する「WebAPI」の組み合わせで実現するものだ。 しかし、利用する仕様を整備して、効果的なデータだけをメータデータ配信するWebAPIは、まだそれほど普及していない。つまりマッシュアップというキーワードから流行っている兆しはあっても、対象として使うことができるものは、意外と少ない。思い出してほしい。 このような状況を打開するのが、HTMLコンテンツを抜き出して加工する「スクレイピングscraping)」という手法だ。 このオンライン・ムックPlus「まとめサイト2.0」では、例として「ITme

    スクレイピングで作る“まとめサイト”
  • sh1.2 pyblosxom : pythonでスクレイピング

    HTML::Selector::XPath をリリース: blog.bulknews.net 川o・-・)<2nd life - rubyスクレイピングツールキット scrAPI を見て、pythonでもElementTreeを使ったらできるんじゃないかなと思ったけども、 ちゃんとしたXMLじゃないとparse時にエラーになってしまう。じゃあ、ElementTreeに 渡す前にHTMLをXHTMLに変換したらいいのかと思って標準ライブラリを探すも、どうや ら標準でそういうことをするライブラリはないらしい。googleさんにお尋ねしてみた所 下記のエントリを発見。 PythonHTML ファイルから情報を取り出すには - 傀儡師の館 - 楽天ブログ(Blog) まさに同じような悩みで色々探していらっしゃって、ここでBeautifulSoupを知りまし た。結構昔からあったモジュール

  • 1