タグ

scrapingに関するsharaku3eyesのブックマーク (5)

  • [jQueryで仕事効率化(スクレイピング)] by シロのITメモ

    スクレイピングとは、HTMLページの必要な部分だけを抽出したりすることを言います。 ITかあさんの記事「誰でもスクレイピング!DOM要素を引っこ抜く」 などもご覧ください。ITかあさんの言うように、著作権を犯してはいけません…。 スクレイピングというと、PHPスクレイピングというケースが多いですが、 今回は、jQueryでスクレイピングしてみます。 ITかあさんのブログでも、JSを使ったスクレイピングの記事を紹介しているが、 ぶっちゃけ、ここまで用意しなくても、Chrome1つさえあれば、サクッとできる。 ということで、まずはシチュエーションを想定してみます。 上司:「○○君、JPCERTのサイトから、セキュリティ情報のタイトルを一覧で取得してくれ!」 OL:「かしこまりました。××課長」 ということで、例えば、「JPCERT/CC からのお知らせ」から、タイトル一覧を取得するとする。(

  • ニコニコ動画をWeb::Scraperでスクレイプ - Magical Diary, beta version

    ニコニコ動画のタグごとにRSSを作るため、最初は以下のように正規表現でゴリゴリと処理していたが、イマイチ綺麗じゃない。 while($html =~ m{<p><a\s+href="watch/(\w+)">\s* <img\s+.*?src="(.*?)".*?>.*? <strong>((?:\d+分)?\s*\d+秒)</strong>.*? 再生:<strong>([\d,]+)</strong>.*? コメント:<strong>([\d,]+)</strong>.*? <a\s+class="video".*?>([^<>]*)</a></p>.*? <p.*?>([^<>]*?)</p>.*? <p.*?><strong>([^<>]*?)</strong></p> }gsx) { ... } 今回は Web::Scraper というモジュールを使ってみた。これは、CSSセレク

    sharaku3eyes
    sharaku3eyes 2007/10/14
    タグごとにRSSを吐くscrapingをしている。ニコニコ関連サービスを作る時に参考にする
  • Web::Scraperが便利すぎて困るの巻 (CodeZine編集部ブログ)

    こんにちは、編集マンの久次です。 なんだかPerlのWeb::Scraperが便利すぎで、やばいです。 これまでWWW::Mechanizeでごにょごにょやっていたのですが、一気にいろんなものが解決しました。 それで、いろいろ書いていたら、HTML::TreeBuilderのlook_downというメソッドも強力なことにいまさらながら、気づいたので勉強がてら、ためしにコードを書いてみました。 Webの自動制御に今日も夢が広がる…。 <参考> Web::Scraper - Web Scraping Toolkit inspired by Scrapi - search.cpan.org naoyaのはてなダイアリー - Web::Scraper ブログが続かないわけ | Web::Scraper 使い方(超入門) Web::Scraper超便利 scrAPI Cheat Sheet

  • ブログが続かないわけ | Web::Scraper 使い方(超入門)

    3年前にこのに出会って、僕はスクレーピングの虜になった。 おかげで正規表現をたくさん書く機会が得られたし、CPANのモジュールともたくさん触れ合うことができたし、さらに自分自身でも構造化されたHTMLを書く習慣も身についた。 ただ、やっぱり、スクレーピングは簡単ではない部分もたくさんあると思う。文字コードについても意識しなければならないし、なにより正規表現で必要な部分を抽出することそのものが結構骨のいる作業だ。HTML::TreeBuilder を使った方がいいのか、それとも正規表現だけでやったほうが楽なのか。そんなことを考慮しながらコーディングして行く。そこがスクレーピングの楽しいところでもあるのだが、そこがスクレーピングの敷居を高いものにしていることも否めない。 そんな、愛らしくもあり憎たらしくもあるスクレーピングを簡単にやってしまうのがこのモジュール、Web::Scraper だ。

    ブログが続かないわけ | Web::Scraper 使い方(超入門)
    sharaku3eyes
    sharaku3eyes 2007/10/12
    [web::scraper][perl]超わかり易い、まだできないけど
  • 進化する“Webスクレイピング”技術の世界 ― @IT

    2007/02/20 WebサービスAPIRSSフィードを使って複数サイトのサービスや情報をマッシュアップ――。これはWeb2.0が包含するいくつかの概念のうち、最も重要なものの1つだ。Amazon.comやGoogleYahoo!楽天といった大手Webサイトは、RESTやSOAPを用いたAPIを公開しており、さまざまなサービス提供者や個人がAPIを通して各種サービスを利用している。その一方、世の中のWebサイトの大多数はWeb1.0的なHTMLCGIフォームしか提供していないのが現実だ。こうした背景からWeb1.0サイトから構造化されたデータを引っ張り出す“Webスクレイピング技術が急速に発展してきているようだ。 HTMLをXML化し、XPathで関連データだけを抽出 例えば価格情報サイトでは製品名から価格が簡単に調べられるが、Webサーバから提供されるのは、製品名や価格にレ

    sharaku3eyes
    sharaku3eyes 2007/10/03
    Web1.0サイトから構造化されたデータを引っ張り出す“Webスクレイピング”技術
  • 1