Redirecting… Click here if you are not redirected.
取得してきたHTMLから必要な箇所だけを抽出します。 perlには正規表現の機能があります。 正規表現を使って必要なデータを取って来れます。 例えば下記のようなHTMLを取得したとします。 <html> <head> <title>Test Page</title> </head> <body> <div id="content"> <h1>Test Page</h1> <h2>主なトピックス</h2> <ul class="clr"> <li><span class="dateRight">8月30日</span><a href="/topics/title1.html">Title1</a></li> <li><span class="dateRight">8月29日</span><a href="/topics/title2.html">Title2</a></li> <li><sp
備忘録的にまとめていこうシリーズ、今回はWebスクレイピングの話題を。 超今更感のあるスクレイピングです。例によってPerlです。 スクレイピング=必要な情報を毟り取ってくること ところで、スクレイピングってAPIでとってくるのと違うらしいんだけど何が違ったっけ。返ってくるデータが素のデータなだけかな? まぁいいやー でもこれ、ついった初期の頃は凄い使われてましたね。あの頃はスクレイピングでほいほいとってくるのが楽しかった記憶が。今は確か規約で禁止されてるんでしたっけ。(スクレイピングは場所によっては規約で禁止されてるらしーーので一応処理する前に確認を−) さてさて本題です。 今回なんでスクレイピングしたのかというと某所から価格情報を定期的にとってきたかったから、ですです。あまぞんさんではありません。 検索対象の語句をある別ファイルに保存していたとして、そいつを読み込んで各用語ごとにスクレ
こんにちは。enjiです。 Web屋として7年程生き抜いているのですが、その中で「本当にこれは便利だ!もし、環境が変わっても、もう一度買ってしまう。」と断言できる道具やサービスをご紹介致します!ほんの少しでも、役に立つ情報があれば幸いです。 photo credit: Grafix Guru via photopin cc 書類を全てデータ化するScanSnap S1500 これはもう、絶対にに買うべき商品です。 紙をスキャンしてPDFや画像データに変換します。 今まで、どんどん溜まっていた紙の資料等が スキャンしてポイなので散らかっていた紙が無くなり、デスクを綺麗に保てます。 EverNoteやDropboxに自動で送る機能もあるので 大事な契約書、説明書、名刺などなんでもホイホイデータにしておけば いつでも確認できて便利です。 迷っているなら即、買いです。本の自炊もできますよ。 htt
サーバ側で認識されるユーザエージェント(HTTP_USER_AGENT)を指定したHTTPリクエストを行うには、LWP::UserAgentを使うのがお勧めです。 ここでは、LWP::UserAgentのエージェント名を指定してHTTPを送信する方法を説明したいと思います。 HTTPクライアントサンプル 以下にLWP::UserAgentを利用したクライアントを示します。 サンプルは、HTTPによって取得したHTML文を全てそのまま表示します。 #!/usr/bin/perl use LWP::UserAgent; # HTTP_USER_AGENTを「MyUserAgent」という名前にする $ua = LWP::UserAgent->new(agent => "MyUserAgent"); # HTTP method GETでHTTPリクエストを送信 $resp = $ua->get(
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く