[B! scraping] nishikawasasakiのブックマーク

nishikawasasaki id:nishikawasasaki

scrapingに関するnishikawasasakiのブックマーク (4)

Webクローリング＆スクレイピングの最前線公開用
MySQLとPostgreSQLと日本語全文検索 - Azure DatabaseでMroonga・PGroongaを使いたいですよね！？Kouhei Sutou
nishikawasasaki 2013/06/24
web

scraping

crawler

slideshare
リンク
Validator.nu HTML Parserを使ってみる : mwSoft blog
Validator.nu HTML Parserは、Java製のHTMLパーサ。Firefox4のHTML5パーサはこれを元にしているらしい。Liftが依存しているライブラリの中を覗いていたらこの子がいたので、試しに使ってみた。利用しているバージョンは1.2.1。Scala2.8で記述。 Validator.nu HTML Parserは、JavaのSAXやDOM、XOMなどの機能と連携して解析することができるらしい。たとえばJavaのSAXのDefaultHandlerを使って、HTMLのリンクの部分だけ抜き出す処理を行うと、下記のようなソースになる。Scalaで書いてるけど使ってる機能はJavaなので、心の目で見ればJavaに見えるはずです。尚、記述している内容は、HTMLをパースして、そこからhrefの値を抜き出すようなことをやってます。 import java.io.Stri
nishikawasasaki 2011/12/16
scala

scraping

parser
リンク
Scraping the web with Node.io
$ node.io google.js hello has about 878,000,000 results foobar has about 2,630,000 results weather has about 719,000,000 results OK: Job complete Scraping Multiple Pages Unfortunately some of the documentation simply says coming soon, so you're left to guess the best way to put together more advanced scraping workflows. For example, I wanted to scrape the search results from GitHub. If you search
nishikawasasaki 2011/12/16
node.js

scraping
リンク
ScalaでWebスクレイピングしようとしたメモ | mwSoft
概要極力Scalaの標準機能を使って、HTMLをスクレイピングしてみようと思っていろいろ試したメモ。手探り状態なので、かなりうだうだとしています。 HTMLパーサはいろんな意味で手に負えないので、Validator.nu HTML Parserを使用。前書き Scalaは標準でXPathっぽくXMLを扱う機能が用意されている。ので、Webスクレイピングという用途にはわりと向いていると思う。フルセットのXPathのような多様な指定ができるわけではないので、専用のライブラリを使った方がかゆいところに手は届く部分も多いけど、細かいライブラリの使い方を勉強しなくても、普段使ってるScalaのCollectionみたいな気分で要素を操作できるのは、なかなかに心地良い。 ScalaのXML操作の基本 ScalaでXMLを扱う場合は、scala.xml配下のXML、Elem、Node、NodeSe
nishikawasasaki 2011/12/14
scala

scraping

parser
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx