[B! scraping] sharaku3eyesのブックマーク

[jQueryで仕事効率化（スクレイピング）] by シロのITメモ

スクレイピングとは、HTMLページの必要な部分だけを抽出したりすることを言います。 ITかあさんの記事「誰でもスクレイピング！DOM要素を引っこ抜く」などもご覧ください。ITかあさんの言うように、著作権を犯してはいけません…。スクレイピングというと、PHPでスクレイピングというケースが多いですが、今回は、jQueryでスクレイピングしてみます。 ITかあさんのブログでも、JSを使ったスクレイピングの記事を紹介しているが、ぶっちゃけ、ここまで用意しなくても、Chrome1つさえあれば、サクッとできる。ということで、まずはシチュエーションを想定してみます。上司：「○○君、JPCERTのサイトから、セキュリティ情報のタイトルを一覧で取得してくれ！」 OL：「かしこまりました。××課長」ということで、例えば、「JPCERT/CC からのお知らせ」から、タイトル一覧を取得するとする。（

sharaku3eyes 2013/02/22

リンク

ニコニコ動画をWeb::Scraperでスクレイプ - Magical Diary, beta version

ニコニコ動画のタグごとにRSSを作るため、最初は以下のように正規表現でゴリゴリと処理していたが、イマイチ綺麗じゃない。 while($html =~ m{<a\s+href="watch/(\w+)">\s* <img\s+.*?src="(.*?)".*?>.*? ((?:\d+分)?\s*\d+秒).*? 再生：([\d,]+).*? コメント：([\d,]+).*? <a\s+class="video".*?>([^<>]*)</a>.*? <p.*?>([^<>]*?).*? <p.*?>([^<>]*?) }gsx) { ... } 今回は Web::Scraper というモジュールを使ってみた。これは、CSSセレク

sharaku3eyes 2007/10/14

タグごとにRSSを吐くscrapingをしている。ニコニコ関連サービスを作る時に参考にする

リンク

Web::Scraperが便利すぎて困るの巻 (CodeZine編集部ブログ)

こんにちは、編集マンの久次です。なんだかPerlのWeb::Scraperが便利すぎで、やばいです。これまでWWW::Mechanizeでごにょごにょやっていたのですが、一気にいろんなものが解決しました。それで、いろいろ書いていたら、HTML::TreeBuilderのlook_downというメソッドも強力なことにいまさらながら、気づいたので勉強がてら、ためしにコードを書いてみました。 Webの自動制御に今日も夢が広がる…。＜参考＞ Web::Scraper - Web Scraping Toolkit inspired by Scrapi - search.cpan.org naoyaのはてなダイアリー - Web::Scraper ブログが続かないわけ | Web::Scraper 使い方(超入門) Web::Scraper超便利 scrAPI Cheat Sheet

sharaku3eyes 2007/10/14

リンク

ブログが続かないわけ | Web::Scraper 使い方(超入門)

３年前にこの本に出会って、僕はスクレーピングの虜になった。おかげで正規表現をたくさん書く機会が得られたし、CPANのモジュールともたくさん触れ合うことができたし、さらに自分自身でも構造化されたHTMLを書く習慣も身についた。ただ、やっぱり、スクレーピングは簡単ではない部分もたくさんあると思う。文字コードについても意識しなければならないし、なにより正規表現で必要な部分を抽出することそのものが結構骨のいる作業だ。HTML::TreeBuilder を使った方がいいのか、それとも正規表現だけでやったほうが楽なのか。そんなことを考慮しながらコーディングして行く。そこがスクレーピングの楽しいところでもあるのだが、そこがスクレーピングの敷居を高いものにしていることも否めない。そんな、愛らしくもあり憎たらしくもあるスクレーピングを簡単にやってしまうのがこのモジュール、Web::Scraper だ。

sharaku3eyes 2007/10/12

[web::scraper][perl]超わかり易い、まだできないけど

リンク

進化する“Webスクレイピング”技術の世界 ― ＠IT

2007/02/20 WebサービスのAPIやRSSフィードを使って複数サイトのサービスや情報をマッシュアップ――。これはWeb2.0が包含するいくつかの概念のうち、最も重要なものの1つだ。Amazon.comやGoogle、Yahoo!、楽天といった大手Webサイトは、RESTやSOAPを用いたAPIを公開しており、さまざまなサービス提供者や個人がAPIを通して各種サービスを利用している。その一方、世の中のWebサイトの大多数はWeb1.0的なHTMLやCGIフォームしか提供していないのが現実だ。こうした背景からWeb1.0サイトから構造化されたデータを引っ張り出す“Webスクレイピング”技術が急速に発展してきているようだ。 HTMLをXML化し、XPathで関連データだけを抽出例えば価格情報サイトでは製品名から価格が簡単に調べられるが、Webサーバから提供されるのは、製品名や価格にレ

sharaku3eyes 2007/10/03

Web1.0サイトから構造化されたデータを引っ張り出す“Webスクレイピング”技術

リンク

はてなブックマーク

タグ

関連タグで絞り込む (11)

scrapingに関するsharaku3eyesのブックマーク (5)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

今週のはてなブックマーク数ランキング（2024年7月第1週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス