[B! scraping] niidomeのブックマーク

[初心者向け]PHPライブラリのGoutteを使ってWebページをスクレイピングする | ちっぷらす

niidome 2015/02/05

php
scraping

リンク

スクレイピングするなら ScraperWiki 使うといいよ - ヤルキデナイズドだった

Web ページからデータを抽出してデータベースに突っ込むことに性的興奮を覚えるみなさん、 ScraperWiki 使うとキモチイイですよ。以上です。そうではないみなさんには少々の説明が必要かと思いますので少々書きます。 ScraperWiki はスクレーパ（Web ページをスクレイピングするスクリプト）とスクレイピングで得られたデータを共有しようぜっという Web サービスです。Wiki と名が付いていますが Wiki っぽいページ構成になってるわけではなく、スクレーパやデータを誰でも編集できるようにして成果を共有するという理念が Wiki と共通しているのが由来みたいです。 ScraperWiki を使うとスクレーパを作るのがラクになります： Web ベースのエディタでスクレーパを書き、その場で実行できる PHP、 Python または Ruby が使える（HTML パーサなどのモジュ

niidome 2011/06/06

リンク

HOME

ARTSNET is a place where you can learn the meaning and background of various songs. We can all learn more about the music we love together.

niidome 2010/04/22

PHP
scraping

リンク

Snoopy でHTMLを取得する - bnote

オープンソースでSnoopyと呼ばれるWebクライアントがあります。 Snoopyのサイトでは、simulates a web browserと紹介されています。ここでは、Snoopy1.2を使用してHTTP Responseを取得してみます。同じようなことがPearのHTTP_Requestパッケージでも可能です。 Snoopyの利点は、依存関係がないことかな。HTTP_Requestは、Net_URLとNet_Socketが必要になります。それでは、Snoopyを使用してAmazon Web サービスのxmlデータを取得します。 <?php require_once 'Snoopy.class.php'; $awsUrl = 'http://webservices.amazon.co.jp/onca/xml?Service=AWSECommerceService'; $awsU

niidome 2010/02/23

PHP
scraping

リンク

ひきぷろぐ - FC2 BLOG パスワード認証

niidome 2010/02/23

scraping
PHP

リンク

クローラーを作るためのフレームワーク·Anemone MOONGIFT

RSSフィードやWeb API、Mashupなどの単語が注目を集める中、Webクローラーを通じて外部のWebサイトにあるデータをかき集め、それを解析して別な形にするというのはよく見られるものになってきた。あるURLを指定し、そこからリンクされているURLを一覧表示できるそうした数々のシステムの中で、クローラーとなる基盤は大きな違いはない。Webサイトのデータを取得し、次のリンクを洗い出して取得していくようなものだ。そうした共通動作部分を切り出したフレームワークがAnemoneだ。今回紹介するオープンソース・ソフトウェアはAnemone、Webクローラを開発するためのフレームワークだ。 Anemoneは任意のWebサイトにアクセスし、その内容を解析するWebクローラーだ。例えばあるURLに付けられているリンクを一覧で取得するようなことも簡単にできる。外部サイトなのかどうかも区別できるの

niidome 2009/07/08

リンク

PHPでのスクレイピングに役立つライブラリ - (DxD)∞

APIが提供されていないサービスから欲しい情報だけを取得するには、HTMLなどから自前でスクレイピングを行うしかありません。PHPでのスクレイピングに役立つライブラリなどをまとめてみました。 PerlやRubyには色々と便利そうなものが見つかるのですが、PHPにはなかなかこれといったものがないですね。 Webスクレイピングライブラリ HTML Scraping HTMLをXML化してDOMやXPathで操作できるクラス。主にHTTP_Request+HTMLParser(XML_HTMLSax3を含む)/Tidy+Cache_Liteという構成で、スクレイピングに必要なものが一通り揃っている。ライセンスはLGPL他。 WebScraper シンプルな汎用スクレイピングクラス。HTTP_Client+HTMLParser(XML_HTMLSax3を含む)という構成で、XPathで要素を抽出でき

niidome 2008/03/13

リンク

はてなブックマーク

タグ

関連タグで絞り込む (6)

scrapingに関するniidomeのブックマーク (7)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス