情報自動収集システムの決定版 WEBスクレイパー。インターネット上にある様々な情報を自動収集できるアプリケーション!今まで手作業で行っていた、営業リスト作成、マーケティング調査など、時間をかけず、誰でも簡単に、短時間で行うことが可能に!※ リストファイルはCSV形式での取得となりますので、Excelなどで汎用的に利用することが可能です。
APIが提供されていないサービスから欲しい情報だけを取得するには、HTMLなどから自前でスクレイピングを行うしかありません。PHPでのスクレイピングに役立つライブラリなどをまとめてみました。 PerlやRubyには色々と便利そうなものが見つかるのですが、PHPにはなかなかこれといったものがないですね。 Webスクレイピングライブラリ HTMLScraping HTMLをXML化してDOMやXPathで操作できるクラス。主にHTTP_Request+HTMLParser(XML_HTMLSax3を含む)/Tidy+Cache_Liteという構成で、スクレイピングに必要なものが一通り揃っている。ライセンスはLGPL他。 WebScraper シンプルな汎用スクレイピングクラス。HTTP_Client+HTMLParser(XML_HTMLSax3を含む)という構成で、XPathで要素を抽出でき
pipes今回も Pipes ネタ。例によって Fetch Page モジュール。今まで「Page Fetch」だと勘違いしてたが、どうやら「Fetch Page」だったらしい。あちゃー。で、本題。京都市バスの路線別 停留所 API を Yahoo! Pipes で作ってみた。サンプル作ってみたこの Pipes を使ったサンプルを作ってみた。→ 京都バス案内 (デモ)左の系統一覧を選択したら、右側に詳細が出る。停留所をクリックしたら時刻表が表示される。JavaScript+jQuery+JSONP で実装してるよ。そのまんまだけど、API 使ってる気分になってきた。すごくない?絶対に API を公開しそうにない京都市交通局の HTML を使って、外部の人間が勝手に API 化しちゃってるわけですよ。Web 1.0 なページを、無理やり Web 2.0 化ですよ。なんでもかんでもマッシュアッ
最近、ピアキャストにも飽きてきて、株価のチェックが趣味になってきました。あちこちのサイトをみたり、omega chart を使ってスクリーニングしてみたりと、色々遊んでるわけですが、もうちょっとこうなんていうか、自由にいろいろできるようにならんもんかなぁ、と思い始めたので、ちょっとしたスクリプトを書いてみました。 stock.py #! -*- coding: cp932 -*- import sys, os from subprocess import Popen, call from datetime import datetime, timedelta import urllib2 class Storage(dict): def __getattr__(self, key): if self.has_key(key): return self[key] raise Attribut
毎日楽しくニコニコ動画を見ていたら、ランキングデータをテキストデータで取得して自分ランキングを作りたくなりました。そんなときはPerlだなーとかりかり書いていたら、なんだかモジュールっぽいものになりました。折角だから晒してみます。ツッコミ歓迎。 WWW::NicoVideo [pod] 使い方 use WWW::NicoVideo; my $n = new WWW::NicoVideo( 'mail', 'password'); # ランキング情報を取得する my $data = $n->ranking( span => 'weekly', type => 'mylist', all => 1 ); # 任意のタグ一覧情報を取得する my $data = $n->tag( word => '孔明の罠', type => 'view', all => 0, ); # 動画再生ページの情報を取
Web::Scraper はいたれりつくせりの仕掛けが仕込んであって、便利ですね。私が、割と良く使っている機能は以下 2 つです。 process の第一引数に、CSS セレクタだけでなく、XPath も指定できます。ただし、XPath を指定するときは先頭を必ずスラッシュ(/)で始めなければいけません。 process の第二引数以降の、値をどこから取得するかを指定する部分に、コード・リファレンスを置くこともできます。これを使うと、DOM ツリー中の値を加工して抽出することができます。 具体例として、デイリーポータルZのアーカイブ一覧の中からべつやくれいさんのエントリを抽出してみることにします。まず、アーカイブ・ページのエントリ部分を取り出してやると、こうなっています。 <TD width="580" valign="top" class="tx12px"> <P> <B><FONT c
「カナかな団の躁鬱」に、はてブコメントを表示するようにしてみた。が、たいしてブクマされてない(2個くらい)のでアレですが。とりあえずメモ。 <?php #リクエストURLを取得 $var = $_SERVER["REQUEST_URI"] ; #リクエストURLからクエリ以後を取り出す $dataurl = preg_replace ("/.*read|\.|php|\/|\?/", "", $var) ; //はてブコメント #フラグメント識別子を作るための元 $hatenano = substr ($dataurl, 8, 1) ; $hatenafla = preg_replace ("/0/", "10", $hatenano) ; #print "$var%23PrintNo$hatenafla"; #フラグメント識別子なしURLのはてなブックマークコメントを読み込む $hate
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く