マッチングアプリ女「お仕事何してるんですかー?」僕「ドーナツ屋さんで販売してますよ」女「…そうなんですね…」
13行のコードで、Yahoo!Japanのトピックス一覧を取得する! PerlでHTML取得・解析したいときはLWP::UserAgentとHTML::TreeBuilderというのを使うと簡単にできます。 LWP::UserAgentを使うと、Webページの取得ができます。 HTML::TreeBuilderを使うと、HTMLのDOM解析ができます。 この2つのモジュールを使って、Yahoo!Japanのトピックス一覧を取得してみましょう。 コメント行と空行を除くとたったの13行です。 use strict; use warnings; use LWP::UserAgent; use HTML::TreeBuilder; # urlを指定する my $url = 'http://www.yahoo.co.jp'; # IE8のフリをする my $user_agent = "Mozilla
RSSフィードやWeb API、Mashupなどの単語が注目を集める中、Webクローラーを通じて外部のWebサイトにあるデータをかき集め、それを解析して別な形にするというのはよく見られるものになってきた。 あるURLを指定し、そこからリンクされているURLを一覧表示できる そうした数々のシステムの中で、クローラーとなる基盤は大きな違いはない。Webサイトのデータを取得し、次のリンクを洗い出して取得していくようなものだ。そうした共通動作部分を切り出したフレームワークがAnemoneだ。 今回紹介するオープンソース・ソフトウェアはAnemone、Webクローラを開発するためのフレームワークだ。 Anemoneは任意のWebサイトにアクセスし、その内容を解析するWebクローラーだ。例えばあるURLに付けられているリンクを一覧で取得するようなことも簡単にできる。外部サイトなのかどうかも区別できるの
URI::Fetch [ Perl ] search.cpan.org: URI::Fetch - Smart URI fetching (for syndication feeds, in particular)URI::Fetch is a smart client for fetching syndication feeds (RSS, Atom, and others) in an intelligent, bandwidth- and time-saving way. LWP でリモートのコンテンツを取得するにあたって Last-Modified や ETag を抽象化した well-written clients のためのモジュール。Cache::Cache でローカルキャッシュを保持して Last-Modified と Etag に対応、また、Compress::Zlib が
大学院論文輪講資料 平成 12 年 11 月 24 日 ウェブ情報のデータベース化に関する技術動向 Current Technologies of Web Databases 電子情報工学専攻 喜連川研究室 M1 合田 和生 (06381) Abstract Recently there exist various applications using web pages such as a text search engine, a related page service, a topic-based and categorization service, and so on. These applications are essential to us in the Internet. The web data is extremetly large, grows up
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く