タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

スクレイピングに関するkimzoのブックマーク (3)

  • スクレイピングはもっと簡単にならなければいけない - bits and bytes

    スクレイピングをやったことがあるひとならばわかると思うけど、スクレイピングはとてもつまらない作業だ。 HTMLの中から抜き出したい部分を見つけて、その周辺にある特徴的な部分に着目して正規表現を書いたりして抜き出す。あるいはHTMLからDOMを生成して特定のクラスがついているエレメントを抜き出したりする。HTMLをXHTMLに整形、変換してXPathで抜き出す方法もある。どの方法もやることは単純で簡単なことだけれど、極めてめんどくさい。 そういうものだと思って数年間過ごしてきたけれど、去年の夏に出てきた Dapper: The Data Mapper は、そんな退屈な常識をモダーンなajaxでもって吹き飛ばした。もしDapperがどんなのなのか知らなかったら、ちょっと長くてはじめ退屈なんだけど デモムービー を見てみてください。 Dapperが教えてくれたことは、スクレイピングなんて、欲し

  • WWW::MechanizeとSeleniumIDEで勝手APIをかんたんに作る - bits and bytes

    Selenium IDE で生成したテストケースに従ってWWW::Mechanizeを動かすためのラッパーモジュールMechanizedSelenium(仮称)を作ってみて、どれくらい使えるか試してみました。 背景 スクレイピングはもっと簡単にならなければいけないの最後でちょこっと触れていた、ウェブアプリケーションのテストケースを簡単に生成する Selenium IDE は、ブラウザでクリックしていくだけでデータを抜き出せてしまう Dapper: The Data Mapper と並んで考えさせられたツールです。 一度、ウェブアプリケーションのテストをするために HTTP::WebTest を使ってテストケースを書いたことがありました。しかし、ブラウザをマウスでちょこっとつつくだけの動作をperlで書き直すのは当に退屈な作業ですし、テストケースを書くこと自体が困難で、アプリケーションにバ

  • Web 3.0:ウェブサイトがウェブサービスになるとき

    DapperとTeqloのようなアプリケーションが全体としてどんな効果を持つかを示したのが、以下の図だ。 このように、(Amazon E-Commerceサービスのような)オープンAPIスクレイピング、マッシュアップ技術を組み合わせると、どんなウェブサイトでも、情報を提供しているウェブサービスのように扱うことができるようになる。情報(より正確には「データ」)はオープンになる。そして、これによってソフトウェアがこの情報を集合的に利用することが可能になる。ウェブは問い合わせを行い、リミックスすることが可能な物のデータベースになるわけだ。 これはすごいことのように聞こえるが、そもそも合法だろうか。 スクレイピング技術の合法性は、実際かなり疑わしい。ある意味では、これはウェブサイトが所有する情報の窃盗だと見ることもできる。どこまでがコピー/ペーストでどこからがスクレイピングかがはっきりしないた

    Web 3.0:ウェブサイトがウェブサービスになるとき
  • 1