[B! スクレイピング] denkenのブックマーク

denken id:denken

スクレイピングに関するdenkenのブックマーク (11)

WEBスクレイパー｜情報自動収集システムの決定版
情報自動収集システムの決定版 WEBスクレイパー。インターネット上にある様々な情報を自動収集できるアプリケーション！今まで手作業で行っていた、営業リスト作成、マーケティング調査など、時間をかけず、誰でも簡単に、短時間で行うことが可能に！※ リストファイルはCSV形式での取得となりますので、Excelなどで汎用的に利用することが可能です。
denken 2009/07/31
ゼロベース思考や

スクレイピング

ビジネスモデル
リンク
fuba: exthtml
fuba liberate your parents How do you do? lolita imageboard 1 8 snqjr changed March 12, 2015 delete history edit powered by Jottit, a theinfo.org production (talk to us)
denken 2008/07/02
これは有用やでー

XPath

ツール

ぶっこぬき

Perl

スクレイピング
リンク
PHPでのスクレイピングに役立つライブラリ - (DxD)∞
APIが提供されていないサービスから欲しい情報だけを取得するには、HTMLなどから自前でスクレイピングを行うしかありません。PHPでのスクレイピングに役立つライブラリなどをまとめてみました。 PerlやRubyには色々と便利そうなものが見つかるのですが、PHPにはなかなかこれといったものがないですね。 Webスクレイピングライブラリ HTML Scraping HTMLをXML化してDOMやXPathで操作できるクラス。主にHTTP_Request+HTMLParser(XML_HTMLSax3を含む)/Tidy+Cache_Liteという構成で、スクレイピングに必要なものが一通り揃っている。ライセンスはLGPL他。 WebScraper シンプルな汎用スクレイピングクラス。HTTP_Client+HTMLParser(XML_HTMLSax3を含む)という構成で、XPathで要素を抽出でき
denken 2008/03/15
PHP

スクレイピング

まとめ

ライブラリ

あとで
リンク
Snoopy
Snoopy is a PHP class that simulates a web browser. It automates the task of retrieving web page content and posting forms, for example.
denken 2008/02/20
PHP

スクレイピング

ライブラリ

あとで
リンク
https://www.openvista.jp/archives/note/251/?251/
denken 2008/02/11
これは試さざるをえない

PHP

スクレイピング

ライブラリ

あとで
リンク
京都市バスの路線別停留所取得API公開 - てっく煮ブログ
pipes今回も Pipes ネタ。例によって Fetch Page モジュール。今まで「Page Fetch」だと勘違いしてたが、どうやら「Fetch Page」だったらしい。あちゃー。で、本題。京都市バスの路線別停留所 API を Yahoo! Pipes で作ってみた。サンプル作ってみたこの Pipes を使ったサンプルを作ってみた。→ 京都バス案内 (デモ)左の系統一覧を選択したら、右側に詳細が出る。停留所をクリックしたら時刻表が表示される。JavaScript＋jQuery＋JSONP で実装してるよ。そのまんまだけど、API 使ってる気分になってきた。すごくない？絶対に API を公開しそうにない京都市交通局の HTML を使って、外部の人間が勝手に API 化しちゃってるわけですよ。Web 1.0 なページを、無理やり Web 2.0 化ですよ。なんでもかんでもマッシュアッ
denken 2007/12/20
「「絶対に API を公開しそうにない京都市交通局の HTML を使って、外部の人間が勝手に API 化しちゃってるわけですよ。Web 1.0 なページを、無理やり Web 2.0 化ですよ。なんでもかんでもマッシュアップですよ。」」

API

スクレイピング

Pipes

京都

市バス
リンク
Pythonで簡易銘柄スクリーニング - Λάδι Βιώσας
最近、ピアキャストにも飽きてきて、株価のチェックが趣味になってきました。あちこちのサイトをみたり、omega chart を使ってスクリーニングしてみたりと、色々遊んでるわけですが、もうちょっとこうなんていうか、自由にいろいろできるようにならんもんかなぁ、と思い始めたので、ちょっとしたスクリプトを書いてみました。 stock.py #! -*- coding: cp932 -*- import sys, os from subprocess import Popen, call from datetime import datetime, timedelta import urllib2 class Storage(dict): def __getattr__(self, key): if self.has_key(key): return self[key] raise Attribut
denken 2007/12/09
Python

スクリーニング

スクレイピング

株
リンク
ニコニコ動画をスクレイピング & FLV保存するPerlモジュールを作ってみた。 (Re::Monologue)
毎日楽しくニコニコ動画を見ていたら、ランキングデータをテキストデータで取得して自分ランキングを作りたくなりました。そんなときはPerlだなーとかりかり書いていたら、なんだかモジュールっぽいものになりました。折角だから晒してみます。ツッコミ歓迎。 WWW::NicoVideo [pod] 使い方 use WWW::NicoVideo; my $n = new WWW::NicoVideo( 'mail', 'password'); # ランキング情報を取得する my $data = $n->ranking( span => 'weekly', type => 'mylist', all => 1 ); # 任意のタグ一覧情報を取得する my $data = $n->tag( word => '孔明の罠', type => 'view', all => 0, ); # 動画再生ページの情報を取
denken 2007/08/03
ニコニコ動画

Perl

スクレイピング
リンク
Web::Scraper で XPath と CSS セレクタを混ぜて使う例 - Tociyuki::Diary
Web::Scraper はいたれりつくせりの仕掛けが仕込んであって、便利ですね。私が、割と良く使っている機能は以下 2 つです。 process の第一引数に、CSS セレクタだけでなく、XPath も指定できます。ただし、XPath を指定するときは先頭を必ずスラッシュ(/)で始めなければいけません。 process の第二引数以降の、値をどこから取得するかを指定する部分に、コード・リファレンスを置くこともできます。これを使うと、DOM ツリー中の値を加工して抽出することができます。具体例として、デイリーポータルZのアーカイブ一覧の中からべつやくれいさんのエントリを抽出してみることにします。まず、アーカイブ・ページのエントリ部分を取り出してやると、こうなっています。 <TD width="580" valign="top" class="tx12px"> <P> <B><FONT c
denken 2007/07/27
こういうのを見るとPerlがうらやましく思えてくる

Perl

スクレイピング

あとで
リンク
はてなブックマークコメントを表示する - カナかな団首領の自転車置き場ダイアリー
「カナかな団の躁鬱」に、はてブコメントを表示するようにしてみた。が、たいしてブクマされてない（2個くらい）のでアレですが。とりあえずメモ。 <?php #リクエストURLを取得 $var = $_SERVER["REQUEST_URI"] ; #リクエストURLからクエリ以後を取り出す $dataurl = preg_replace ("/.*read|\.|php|\/|\?/", "", $var) ; //はてブコメント #フラグメント識別子を作るための元 $hatenano = substr ($dataurl, 8, 1) ; $hatenafla = preg_replace ("/0/", "10", $hatenano) ; #print "$var%23PrintNo$hatenafla"; #フラグメント識別子なしURLのはてなブックマークコメントを読み込む $hate
denken 2007/07/15
RSSのほうを使うべきだと思ふ。http://b.hatena.ne.jp/entry/rss/http://www.aboutworks.com/shokodei/diary/read?200603a01%23PrintNo1

はてなブックマーク

スクレイピング

HTML

PHP
リンク
Dapper: The Data Mapper
Get more traffic to your site Use Dapper to create new means for people to access your content. Create RSS feeds, widgets, and APIs with your content and links.
denken 2007/05/25
ぐふふ

XML

API

スクレイピング

これはすごい
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx