[B! scraping] rikubaのブックマーク

月間1.6億秒の Lambda x Node.js 利用から得られた知見

ストックマークのプロダクト開発・運用では、Node.jsを利用してAWS Lambda を月間1.6億秒利用しています。本記事ではそこから分かった知見を紹介します。

rikuba 2022/10/19

リンク

Web Scraper

Powerful web scraper for regular and professional use Automate data extraction in 20 minutes Web Scraper is designed for regular and scheduled use to extract large amounts of data and easily integrate with other systems.

rikuba 2021/03/25

リンク

クローラー運用を楽にするためのクラウドサービス比較 - ZOZO TECH BLOG

こんにちは！最近気になるニュースはスピノサウルスの尻尾の化石が発見されたこと1な、SRE部エンジニアの塩崎です。ZOZOテクノロジーズの前身となった会社の1つであるVASILYでは数多くのクローラーの開発・運用の担当をしてきました。今回はその知見を生かして、クローラーを楽に運用するためのクラウドサービスを紹介します。概要データ解析を円滑に進めるためには、CSVやWeb APIなどの構造化されたデータが必要です。しかし全てのWebサイトにあるデータが構造化データを提供しているとは限りません。むしろ提供していないケースの方がはるかに多いです。そのため、Webクローラーを作成して構造化されていないWebページを解析し、構造化データを生成する必要があります。しかし、Webクローラーの運用には数多くの「つらみ」があります。特に大量のWebページを1日1回などの頻度で定期的にクロールする際には

rikuba 2020/05/16

scraping

リンク

GitHub - OnetapInc/chromy: Chromy is a library for operating headless chrome. 🍺🍺🍺

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

rikuba 2017/07/03

リンク

Francis Kim

This is my first post on Mirror. Will this be my new home?

rikuba 2016/08/29

scraping

リンク

スクレイピングのためのNokogiri利用メモ - それはそれ、これはこれ

スクレイピングのチュートリアルを書いてみた。参考：http://nokogiri.rubyforge.org/nokogiri/Nokogiri.html まだまだたくさんのクラスやメソッドがあるが(読んでない)、HTMLのスクレイピングに限定すれば多分これくらいで十分。 2014-02-16追記なんかたくさんブックマークされていることに気づいたので、サンプルコードのRuby1.9/2対応のアップデート。 Mechanize周りも修正。WWW::Mechanize → Mechanize 等 (0) 前提知識 Ruby、HTML、DOM、CSSセレクタまたはXPath (1) クラス構造の理解 Nokogiri::HTML::Document < Nokogiri::XML::Document < Nokogiri::XML::Node < Object Nokogiri::XML::

rikuba 2010/07/31

リンク

https://www.openvista.jp/archives/note/2008/php-scraing-library/?2008/php-scraing-library/

rikuba 2010/07/31

リンク

たった＊行のコードでHTML取得＆解析をしたい場合はWeb::Scraperが便利 - 酒日記はてな支店

なんか無茶振りされたので。簡単！たった１３行のコードでHTML取得＆解析をするPerlスクリプトを Web::Scraper というモジュールを使って書き直すと、こんな感じになります。 use strict; use Web::Scraper; use LWP::UserAgent; use Encode; my $scraper = scraper { process "#topic sfb li" => "topics[]" => "TEXT"; }; $scraper->user_agent( LWP::UserAgent->new( agent => "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.1; Trident/4.0)" ) ); my $result = $scraper->scrape( URI->new("http

rikuba 2010/07/31

リンク

HTML::TreeBuilder のメソッドを覚えるには人生はみじかすぎる件について - tokuhirom's blog

HTML::TreeBuilder のメソッドを覚えるには人生はみじかすぎる件について HTML::TreeBuilder の ->lookup だの ->find だのを覚えるのは、学習の効率がよくない。つぶしがきかないので、もっと一般的な CSS Selector や XPath などを覚えて、それをつかった方がお得であるといえる。 HTML::TreeBuilder で XPath を利用するには、HTML::TreeBuilder::XPath をインストールすればよく、これは pure perl なので容易に利用できる。 my $tree = HTML::TreeBuilder::XPath->new; $tree->parse($content); my @it ems = $tree->findnodes(q{//*[@id='topic sfb']//li}); print $

rikuba 2010/07/31

リンク

はてなブックマーク

タグ

関連タグで絞り込む (9)

scrapingに関するrikubaのブックマーク (9)

お知らせ

今週のはてなブックマーク数ランキング（2025年8月第1週）

月間はてなブックマーク数ランキング（2025年7月）

今週のはてなブックマーク数ランキング（2025年7月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス