並び順

ブックマーク数

期間指定

  • から
  • まで

1 - 40 件 / 119件

新着順 人気順

Web-Scraperの検索結果1 - 40 件 / 119件

  • てきとうにクリックしたらてきとうにWeb::Scraperのコードを作ってくれるWebScraper IDE - bits and bytes

    まえに作ったWeb::Scraperのjavascriptバージョンwebscraper.jsとXPathをてきとうに作ってくれる機能を追加したwebscraperp.jsにHTMLのドキュメントから繰り返し部分をみつけてSITEINFOをつくるAutoPagerize Iteration Detectorみたいなみためをくっつけて、取り出したい部分をクリックしたらてきとうにXPathを生成してWeb::Scraperのコードにして出してくれるFirefoxのextensionを作りました。Firefox3専用です。ごめんなさい。 ダウンロード WebScraper IDE (for Firefox3) 使い方 今回もいつもお世話になっているスターバックスさんの店舗検索結果(住所・店名・条件から探す)を例に使い方をご紹介します。 WebScraper IDEをインストールするとツールメニュ

    • Web::Scraper - naoyaのはてなダイアリー

      Today I've been thinking about what to talk in YAPC::EU (and OSCON if they're short of Perl talks, I'm not sure), and came up with a few hours of hacking with web-content scraping module using Domain Specific Languages. 使ってみたよ! #!/usr/local/bin/perl use strict; use warnings; use FindBin::libs; use URI; use Web::Scraper; use Encode; use List::MoreUtils qw/uniq/; my $links = scraper { process 'a.key

        Web::Scraper - naoyaのはてなダイアリー
      • ブログが続かないわけ | Web::Scraper 使い方(超入門)

        3年前にこの本に出会って、僕はスクレーピングの虜になった。 おかげで正規表現をたくさん書く機会が得られたし、CPANのモジュールともたくさん触れ合うことができたし、さらに自分自身でも構造化されたHTMLを書く習慣も身についた。 ただ、やっぱり、スクレーピングは簡単ではない部分もたくさんあると思う。文字コードについても意識しなければならないし、なにより正規表現で必要な部分を抽出することそのものが結構骨のいる作業だ。HTML::TreeBuilder を使った方がいいのか、それとも正規表現だけでやったほうが楽なのか。そんなことを考慮しながらコーディングして行く。そこがスクレーピングの楽しいところでもあるのだが、そこがスクレーピングの敷居を高いものにしていることも否めない。 そんな、愛らしくもあり憎たらしくもあるスクレーピングを簡単にやってしまうのがこのモジュール、Web::Scraper だ。

          ブログが続かないわけ | Web::Scraper 使い方(超入門)
        • Web::Scraperのjavascriptバージョンwebscraper.js - bits and bytes

          perlのWeb::Scraperみたいな記述で、ページの中からデータを取り出すwebscraper.jsという小さなjavascriptのライブラリを書きました。 ブックマークレット データを取り出したいページでブックマークレットでwebscraper.jsを読み込んでFirebugコンソールで使います。 ブックマークレット webscraper コードwebscraper.js つかいかた Web::ScraperのSYNOPSISで例としてあげられているebayでapple ipod nanoを検索した結果からデータを取り出すときは 検索結果ページで上のブックマークレットを呼び出してFirebugコンソールで取り出す部分を記述します。 こんなかんじ。 SYNOPSISのperlのコードで変数$ebay_auctionに一度代入されている部分をそのままインラインで書き直すと my $e

          • Web::Scraperが便利すぎて困るの巻 (CodeZine編集部ブログ)

            こんにちは、編集マンの久次です。 なんだかPerlのWeb::Scraperが便利すぎで、やばいです。 これまでWWW::Mechanizeでごにょごにょやっていたのですが、一気にいろんなものが解決しました。 それで、いろいろ書いていたら、HTML::TreeBuilderのlook_downというメソッドも強力なことにいまさらながら、気づいたので勉強がてら、ためしにコードを書いてみました。 Webの自動制御に今日も夢が広がる…。 <参考> Web::Scraper - Web Scraping Toolkit inspired by Scrapi - search.cpan.org naoyaのはてなダイアリー - Web::Scraper ブログが続かないわけ | Web::Scraper 使い方(超入門) Web::Scraper超便利 scrAPI Cheat Sheet

            • Config::PitとWeb::ScraperとPlaggerで24時間365日のゲーム監視体制

              序文 趣味のネットウォッチのために仕方が無く超便利なPerlを覚えようという感じの otsune です。そんなわけでコーディングの深い話はよくわからんので、今回はPerlとCPANを使ってネットウォッチを支援する手法について書きます。 ウォッチしたいWebページを機械的に監視できれば、あとはPlaggerなどの便利ツールを使って「メールを出す」「im.kayac.comでメッセンジャーにアラートを出す」「ピザを注文する」など好きな処理をすることが出来ます。 RSSフィードやAPIなどがあるWebサイトであれば特に苦労はしないのですが、今回取り上げるOgame.jpはウェブブラウザーゲームなので、フィードなど便利な機能はまったく存在しません。 そこでウォッチしたいWebページに対してWeb::Scraperを使ってYAMLを出力する短いスクリプトを書いてしまいます。 メールを出すなどのこまご

              • Web::Scraper を XML::LibXML で爆速にする hack! - woremacxの日記

                id:miyagawa さんの Web::Scraper で、HTML::TreeBuilder::XPath の代わりに XML::LibXML を使うととても幸せになれそうなので実験してます。XML::LibXML に手を出す前に IRC で「tinyxpath とか htmlcxx とか使って xpath 周りを高速にしたい」とかボヤいてことがありました。そのときに、id:vkgtaro さんや id:tomyhero さんに激しく libxml や XML::LibXML をオススメされました。libxml をオススメしてもらえてなかったら、確実に路頭に迷ってました。以下が、変更したファイルと差分です。http://pub.woremacx.com/Web-Scraper/Scraper.pmhttp://pub.woremacx.com/Web-Scraper/Web-Scrap

                • Web::Scraper で XPath と CSS セレクタを混ぜて使う例 - Tociyuki::Diary

                  Web::Scraper はいたれりつくせりの仕掛けが仕込んであって、便利ですね。私が、割と良く使っている機能は以下 2 つです。 process の第一引数に、CSS セレクタだけでなく、XPath も指定できます。ただし、XPath を指定するときは先頭を必ずスラッシュ(/)で始めなければいけません。 process の第二引数以降の、値をどこから取得するかを指定する部分に、コード・リファレンスを置くこともできます。これを使うと、DOM ツリー中の値を加工して抽出することができます。 具体例として、デイリーポータルZのアーカイブ一覧の中からべつやくれいさんのエントリを抽出してみることにします。まず、アーカイブ・ページのエントリ部分を取り出してやると、こうなっています。 <TD width="580" valign="top" class="tx12px"> <P> <B><FONT c

                    Web::Scraper で XPath と CSS セレクタを混ぜて使う例 - Tociyuki::Diary
                  • Web Scraper Shibuya.pm tech talk #8

                    The document discusses using Web::Scraper to scrape web pages in a robust, maintainable way by using CSS selectors and XPath queries rather than fragile regular expressions. Web::Scraper provides a domain-specific language for defining scraping processes and extracting desired data from web pages into structured results. Examples show how to scrape links, text, and nested data from HTML elements u

                      Web Scraper Shibuya.pm tech talk #8
                    • WWW::Mechanize::AutoPager+Web::Scraperで複数ページにまたがるデータを扱う - bits and bytes

                      AutoPagerizeのSITEINFOに含まれている、次のページへのリンクを示すXPathはAutoPagerize以外の用途でも使うことができます。 CPANにこのSITEINFOをパースすめたるの HTML::AutoPagerize - Utility to load AutoPagerize SITEINFO stuff というモジュールがあるのは知っていたのですが、ページのロードと次のページのURLの解決もやってくれる WWW::Mechanize::AutoPager - Automatic Pagination using AutoPagerize というモジュールがあるのはさっき知りました... このモジュールを使うと、MechanizeでロードしたページがAutoPagerizeのSITEINFOに記述されていれば、自動的にSITEINFOのnextLinkを参照して

                      • Web::Scraper でいい感じのデータ構造になってくれなくて困っているのはどこのどいつだ〜い? アタイだよ! | ブログが続かないわけ

                        例えばこんなHTMLからニュースの一覧を取得することを考えよう。 <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html lang="ja" xml:lang="ja" xmlns="http://www.w3.org/1999/xhtml"> <head> <meta content="text/html; charset=utf-8" http-equiv="Content-Type" /> <title>サッカーニュース</title> <body> <ul class="news"> <li> <a href="http://sports.livedoor.com/article/ve

                          Web::Scraper でいい感じのデータ構造になってくれなくて困っているのはどこのどいつだ〜い? アタイだよ! | ブログが続かないわけ
                        • Web::Scraperを使って、物件一覧をGoogle Mapsにマッピング : cotalog

                          福岡ファミリー向け物件特集!: ファミリー物件を見ていて、これはいいな、RSS登録するか。 と思ったのですが、このRSSはどうやら福岡の不動産情報探し・お部屋探しサイト「ムビマップ福岡」:こだわりの物件特集[賃貸版]: 物件一覧のようで、僕にはいらん情報も混じっておりました。 で、話題のWeb::Scraperでスクレイピングしてみるか。ついでに取得した一覧はGoogle Mapsにマッピングしてやるか。 というエントリです。 http://fooo.name/ からURL一覧を取り出すのにWeb::Scraper使ったけど、これは良いね scraper http://fooo.name/accounts/otsune してsでソース見てそれっぽくXPath書いてdumpして、データが取れてたらcでソース出して終了。イカス。 を参考にさせてもらいました。 まずは、 $ scraper ht

                          • GitHub - FriendsOfPHP/Goutte: Goutte, a simple PHP Web Scraper

                            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                              GitHub - FriendsOfPHP/Goutte: Goutte, a simple PHP Web Scraper
                            • [http://search.cpan.org/perldoc?Web::Scraper:title=Web::Scraper] をつかってみた - daily dayflower

                              ドキュメントねー,と思ったら Redirecting… みたいな素敵なチュートリアルがあったのでいまさらながら使えるようになりました。サンプル群も参考になりました。 はてブのホッテントリから,タイトル,URL,キーワード,タグを抜き出すのを書いてみました。わりと素直に書くとこんな感じ? use strict; use warnings; use Web::Scraper; use Encode (); #binmode \*STDOUT, ':utf8'; my $utf8 = Encode::find_encoding('utf8'); my $target = do { if (@ARGV && ! -f $ARGV[0]) { use URI; URI->new($ARGV[0]); } else { local $_ = do { local $/; <> }; $utf8->de

                                [http://search.cpan.org/perldoc?Web::Scraper:title=Web::Scraper] をつかってみた - daily dayflower
                              • たった*行のコードでHTML取得&解析をしたい場合はWeb::Scraperが便利 - 酒日記 はてな支店

                                なんか無茶振りされたので。 簡単!たった13行のコードでHTML取得&解析をするPerlスクリプト を Web::Scraper というモジュールを使って書き直すと、こんな感じになります。 use strict; use Web::Scraper; use LWP::UserAgent; use Encode; my $scraper = scraper { process "#topicsfb li" => "topics[]" => "TEXT"; }; $scraper->user_agent( LWP::UserAgent->new( agent => "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)" ) ); my $result = $scraper->scrape( URI->new("http

                                  たった*行のコードでHTML取得&解析をしたい場合はWeb::Scraperが便利 - 酒日記 はてな支店
                                • とんでもない美少女ソムリエが現れたので、Web::Scraper で萌え画像をぶっこ抜いてみる - おいちゃんと呼ばれています

                                  本日の話題を全部もっていってる記事がコレ(↓)。 -うちのマンションの隣のベランダで女子高生がセッ○スしてる 無題のドキュメント (いやいや、ちょっと待って。話は最後まで聞いて... m( )m 今回もいたって真面目な、Perl レシピのエントリーですから。) **とんでもない美少女ソムリエが現れた 当該記事のタイトルのせいでこのエントリーは家族に見せられないものになってしまいましたが、誰もタイトルに触れないほどの驚愕の説得力で、美少女たちを解説しています(玄人)。 < 世の中の尻好きの皆さんお待たせしました。尻好きの皆さんに舞い込んで来る、ありきたりなビキニのデカ尻画像に辟易していませんか。私はしています。マジで。 何も分かっていません。本当の尻好きを楽しませる画像と言うのは馬鹿みたいにテカテカの尻をさらす画像なんかではありません。ホットパンツでエロい尻ラインをさりげなく強調する画像なの

                                    とんでもない美少女ソムリエが現れたので、Web::Scraper で萌え画像をぶっこ抜いてみる - おいちゃんと呼ばれています
                                  • Web::Scraper プレゼン@YAPC::EU: blog.bulknews.net

                                    Web::Scraper プレゼン@YAPC::EU YAPC::Europe でウィーンにきています。1日目の夕方に Web::Scraper のプレゼンをしました。 時間が20分なのに前半に時間をかけすぎて尻きれトンボになってしまいましたが、いろいろフィードバックをもらえたのでよかったです。 ウィーンを観光する時間はとれなそうですが、ドナウ川の周りを散歩してみて、古い建物が見事に街中にとけこんでいて、道路も広いしいろんなものが美しい街です。まわりがテラドイツ語で1人で店とかに入ると大変ですが、また機会があったらきてみたいですねえ。

                                    • Web::Scraper ? SlideShare

                                      The document discusses practical web scraping using the Web::Scraper module in Perl. It provides an example of scraping the current UTC time from a website using regular expressions, then refactors it to use Web::Scraper for a more robust and maintainable approach. Key advantages of Web::Scraper include using CSS selectors and XPath to be less fragile, and proper handling of HTML encoding.Read les

                                        Web::Scraper ? SlideShare
                                      • hide-k.net#blog: Web::ScraperでCISCO RECORDSをスクレーピング

                                        いまさらWeb::Scraperを使ってみました。 使うネタがなかったのがスルーし続けた一番の理由だったのですが、それではいけないと思い、CISCO RECORDSの商品情報を取得するスクリプトという、僕以外誰も興味がないスクリプトを書いてみました。 cisco_scraper.pl #!/usr/bin/perl use strict; use warnings; use Web::Scraper; use URI; use YAML; use Data::Dumper; my $uri = shift; my %scraper; $scraper{'link'} = scraper { process 'a', 'name' => 'TEXT'; process 'a', 'uri' => sub { return URI->new_abs( $_->attr('href'), $u

                                        • Web::Scraper

                                          NAME Web::Scraper - Web Scraping Toolkit using HTML and CSS Selectors or XPath expressions SYNOPSIS use URI; use Web::Scraper; use Encode; # First, create your scraper block my $authors = scraper { # Parse all TDs inside 'table[width="100%]"', store them into # an array 'authors'. We embed other scrapers for each TD. process 'table[width="100%"] td', "authors[]" => scraper { # And, in each TD, # g

                                            Web::Scraper
                                          • Web::Scraperで正規表現を使って必要なリンクだけを取得する方法 - 日曜プログラマのそゞろ事

                                            わかってしまえば単純なことでした。 process 'a[href=~/\.jpe?g$/]', 'urls[]' => '@href'; XPathでも同じようにできます。 process '//a[@href =~ /\.jpe?g$/]', 'urls[]' => '@href'; Web::Scraperにはフィルタの概念があって、取得してからごにょごにょできるので、そっちのほうばかり調べていました。 例えば以下のようなHTMLの場合、そのまま取得すると、前後に改行が入ってしまいます。 <title> タイトルなのだ </title> で、それを取得する時に、前後の改行を削除してやることができます。 process 'title', 'title' => ['TEXT', sub { s/^\s+//o; s/\s+$//o; } ]; こういう機能をフィルタと呼んでいます。 その

                                            • [webscraper]Web::Scraperでニコニコ動画のタグ検索をRSSフィードに

                                              はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

                                                [webscraper]Web::Scraperでニコニコ動画のタグ検索をRSSフィードに
                                              • Journal of miyagawa (1653) - Web::Scraper is released, the Perl port of Scrapi.rb

                                                Web::Scraper is released, the Perl port of Scrapi.rb Today I've been thinking about what to talk in YAPC::EU (and OSCON if they're short of Perl talks, I'm not sure), and came up with a few hours of hacking with web-content scraping module using Domain Specific Languages.With help from guys on IRC channel and obra who gave a nice talk about DSL in Perl at YAPC::Asia, I whipped up a really small We

                                                • Perl Programming: Web::Scraperモジュールの利用

                                                  Web::ScraperはHTMLをスクレイピング (scraping; 解析してデータを抽出) するための汎用的なモジュールです。これを利用することによって、HTMLでしか提供されないデータも容易に再利用することができます。[Perl Programming: mylist/2938071]

                                                    Perl Programming: Web::Scraperモジュールの利用
                                                  • Web::Scraper便利! - はこべにっき ♨

                                                    naoyaのはてなダイアリー - Web::Scraperを見て。 これはよさそう。ソース読んでみると単純に値を取得する以外にも、どうやら、配列で結果を受け取ったり、サブルーチンを渡して処理を委譲したりできるようなので、ためしにやってみよう。 use strict; use warnings; use Web::Scraper; use URI; use YAML; use Encode; my %result; sub parse_title { my $node = shift; my $text = $node->as_text; my $left = decode_utf8('『'); my $right = decode_utf8('』'); my ($nth, $title, $date) = $text =~ m/^\[(.*?)\]\s+$left(.*?)$right(.

                                                      Web::Scraper便利! - はこべにっき ♨
                                                    • Web::ScraperとLWP::Simpleを使って画像掲示板的なサイトから画像を頂く | ブログが続かないわけ

                                                        Web::ScraperとLWP::Simpleを使って画像掲示板的なサイトから画像を頂く | ブログが続かないわけ
                                                      • Web::Scraper で全ての following/followers の screen_name を取得する - nipottern - はてなグループ::ついったー部

                                                        はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

                                                          Web::Scraper で全ての following/followers の screen_name を取得する - nipottern - はてなグループ::ついったー部
                                                        • Web::Scraperに入門した - 日曜プログラマのそゞろ事

                                                          かなーり今更感がありますが。 モジュール自体は、大分前にウェブにあったスクリプトをコピペして使ったときにインストール済みでしたが、なんとなく難しそうで敬遠していたところもありました。 が、やってみると簡単かつパワフルなモジュールであることがわかりました。 参考:use Web::Scraper; - 今日のCPANモジュール XPathがなかなかわからないのですが、CSSセレクタでもいけるのが超絶簡単です。 例えば、aタグのhref属性を取得する場合のprocessは以下のとおり。 process 'a', 'urls[]' => '@href'; で、この場合だと、href属性がないaタグも対象になってしまうので、未定義(undef)が入る場合があります。 なので、href属性があるものだけを対象としたのが以下のprocessです。 process 'a[href]', 'url

                                                          • GitHub - ruipgil/scraperjs: A complete and versatile web scraper.

                                                            You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

                                                              GitHub - ruipgil/scraperjs: A complete and versatile web scraper.
                                                            • 【Perl】WWW::Mechanize と Web::Scraper で PASMO の利用履歴を得る(その1) - blog.remora.cx

                                                              This domain may be for sale!

                                                              • Web::Scraper を利用して画像をたくさん手に入れるWeb::Collector なんてものを書いた | ブログが続かないわけ

                                                                ■主な機能1. YAML を書くだけで簡単に大量の画像を手に入れることができる。 2. 過去に取得した画像(ファイル名でチェック)は取得しない。 3. たどるページ数を制限できる。 1. がこのモジュールの主旨。 2. の機能があるおかげで、取得した画像を整理したり、いらないものを削除したりしても、もう一度同じ画像を取得してしまうことがない。 3. 最初に取得するときはたくさんのページをたどるようにしてスクリプトをキックし、その後例えばcron で定期的にまわす場合などは、たどるページを1とかにすると相手のサーバにも負担をかけなくて良い。 ■使い方1. YAMLを書く (config.yaml)--- img_dir: /Users/junichiro/Pictures/e3 uri: http://www.e-3.ne.jp/image?p= max_cnt: 1 process: pr

                                                                  Web::Scraper を利用して画像をたくさん手に入れるWeb::Collector なんてものを書いた | ブログが続かないわけ
                                                                • use Web::Scraper; - 今日のCPANモジュール(跡地)

                                                                  宣伝と注意書き このサイトが元になったCPANモジュールガイドという本を書きました。 本書でもとりあげています。 このページでは解説していない内容として、scraper { }を入れ子にするやり方も扱いました。scraperコマンドについては本書では割愛しました。 2007-12-29 use Web::Scraper; 年の瀬にさりげなく再開。 久しぶりということでネタはたくさんあるのですが、ぱっとすぐ思いつくおススメ Web::Scraper を紹介。これはその名のとおり、ウェブのスクレイピング(HTML のある部分を抽出)用のモジュールです。半年くらい前に生まれた新しいモジュールでありながら、すでにこの分野でメジャー感がある miyagawa プロダクトです。 API が用意されているサイトの情報は普通に API で取ればよいですが、世の中そうばかりでもないわけで、HTML を文字列

                                                                  • B10[mg]: Scraping Yahoo! Search with Web::Scraper

                                                                    Yet another non-informative, useless blog As seen on TV! Scraping websites is usually pretty boring and annoying, but for some reason it always comes back. Tatsuhiko Miyagawa comes to the rescue! His Web::Scraper makes scraping the web easy and fast. Since the documentation is scarce (there are the POD and the slides of a presentation I missed), I'll post this blog entry in which I'll show how to

                                                                    • Web::Scraper for CustomFeed::Script はてなハイク - SweetPotato::Plagger - Plaggerグループ

                                                                      はてなグループの終了日を2020年1月31日(金)に決定しました 以下のエントリの通り、今年末を目処にはてなグループを終了予定である旨をお知らせしておりました。 2019年末を目処に、はてなグループの提供を終了する予定です - はてなグループ日記 このたび、正式に終了日を決定いたしましたので、以下の通りご確認ください。 終了日: 2020年1月31日(金) エクスポート希望申請期限:2020年1月31日(金) 終了日以降は、はてなグループの閲覧および投稿は行えません。日記のエクスポートが必要な方は以下の記事にしたがって手続きをしてください。 はてなグループに投稿された日記データのエクスポートについて - はてなグループ日記 ご利用のみなさまにはご迷惑をおかけいたしますが、どうぞよろしくお願いいたします。 2020-06-25 追記 はてなグループ日記のエクスポートデータは2020年2月28

                                                                        Web::Scraper for CustomFeed::Script はてなハイク - SweetPotato::Plagger - Plaggerグループ
                                                                      • Web::Scraper使ってみた - Unknown::Programming

                                                                        id:naoyaさんが触ってるの見て面白そうなので僕も触ってみました。 Web::Scraper - naoyaのはてなダイアリー で何を取得してこよーかなーと思ったんですが、ちょーど今流行り?のFizzBuzz問題でブクマコメントがワンライナー大会になってるのでコード(っぽい)ものを取って来るやつを作りました。 #!/usr/bin/perl use strict; use warnings; use Web::Scraper; use Encode; use URI; use URI::Find; use Perl6::Say; my $url = 'http://b.hatena.ne.jp/entry/http://www.aoky.net/articles/jeff_atwood/why_cant_programmers_program.htm'; my $links = scr

                                                                          Web::Scraper使ってみた - Unknown::Programming
                                                                        • ニコニコ動画をWeb::Scraperでスクレイプ - Magical Diary, beta version

                                                                          ニコニコ動画のタグごとにRSSを作るため、最初は以下のように正規表現でゴリゴリと処理していたが、イマイチ綺麗じゃない。 while($html =~ m{<p><a\s+href="watch/(\w+)">\s* <img\s+.*?src="(.*?)".*?>.*? <strong>((?:\d+分)?\s*\d+秒)</strong>.*? 再生:<strong>([\d,]+)</strong>.*? コメント:<strong>([\d,]+)</strong>.*? <a\s+class="video".*?>([^<>]*)</a></p>.*? <p.*?>([^<>]*?)</p>.*? <p.*?><strong>([^<>]*?)</strong></p> }gsx) { ... } 今回は Web::Scraper というモジュールを使ってみた。これは、CSSセレク

                                                                          • ParseHub | Free web scraping - The most powerful web scraper

                                                                            • Journal of miyagawa (1653) - Web::Scraper hacks #2: Extract javascript and css content

                                                                              This is inspired by an email from Renée Bäcker asking how to get content inside javascript tag. Because Web::Scraper's 'TEXT' mapping calls as_text method of HTML::Element, it doesn't get the content inside script and style tag. Here's the code that works. It's kinda clumsy, and it'd be nice if there's much cleaner way to do this: #!/usr/bin/perl # extract Javascript code into 'code' use strict; u

                                                                              • 駱駝の背中に乗って行こう:Perlでスクレイピング(Web::Scraperモジュール)

                                                                                2009年08月05日 Perlでスクレイピング(Web::Scraperモジュール) スクレイピングとは? 以前業務で、既存のWebページから、テーブルの値だけを抜き出して処理する、 というスクリプトを作成したことがあるのですが、必要な値だけを抜き出すというのが難しくて、かなり苦労しました。 当時は知らなかったのですが、、 ウェブサイトのデータを必要な部分だけ抽出して利用することを、スクレイピングといい, スクレイピングの技術を利用すれば、Web API やRSSが公開されていないウェブサイトからも, htmlデータから必要な部分だけ抽出して利用することが出来ます。 Perl でスクレイピングを行うには、Web::Scraper モジュールを利用すると、とても簡単です。 自力での苦労を思うと、本当に感動するほど簡潔、簡単でした! とりあえずCPANのマニュアル

                                                                                • Web::Scraperってすごい件 - コードを舐める日々

                                                                                  あるサイトからコピペでデータ集めすると大変になっちゃう時がありませんか? そこでCPANモジュールのWeb::Scraperを使ったプログラムを勉強してみました。 勉強することになった経緯 まず、「perl スクレイピング」でぐぐってみると、色んな解説やQ&Aサイトが出てきた中で Web::Scraperが使いやすいようです。このモジュールを作った人が著名なPerlハッカーである miyagawaさんなのでこれに決めますた。 Web::Scraperはどうやるの? まず、CPAN.orgでWeb::Scraperをぐぐります。 http://search.cpan.org/dist/Web-Scraper/lib/Web/Scraper.pm NAMEに「Web Scraping Toolkit inspired by Scrapi」とあり、 ウェブスクレイピングツールキットであることはわ

                                                                                    Web::Scraperってすごい件 - コードを舐める日々