MySQLとPostgreSQLと日本語全文検索 - Azure DatabaseでMroonga・PGroongaを使いたいですよね!?Kouhei Sutou
Validator.nu HTML Parserは、Java製のHTMLパーサ。Firefox4のHTML5パーサはこれを元にしているらしい。Liftが依存しているライブラリの中を覗いていたらこの子がいたので、試しに使ってみた。 利用しているバージョンは1.2.1。Scala2.8で記述。 Validator.nu HTML Parserは、JavaのSAXやDOM、XOMなどの機能と連携して解析することができるらしい。 たとえばJavaのSAXのDefaultHandlerを使って、HTMLのリンクの部分だけ抜き出す処理を行うと、下記のようなソースになる。Scalaで書いてるけど使ってる機能はJavaなので、心の目で見ればJavaに見えるはずです。 尚、記述している内容は、HTMLをパースして、そこからhrefの値を抜き出すようなことをやってます。 import java.io.Stri
$ node.io google.js hello has about 878,000,000 results foobar has about 2,630,000 results weather has about 719,000,000 results OK: Job complete Scraping Multiple Pages Unfortunately some of the documentation simply says coming soon, so you're left to guess the best way to put together more advanced scraping workflows. For example, I wanted to scrape the search results from GitHub. If you search
概要 極力Scalaの標準機能を使って、HTMLをスクレイピングしてみようと思っていろいろ試したメモ。手探り状態なので、かなりうだうだとしています。 HTMLパーサはいろんな意味で手に負えないので、Validator.nu HTML Parserを使用。 前書き Scalaは標準でXPathっぽくXMLを扱う機能が用意されている。ので、Webスクレイピングという用途にはわりと向いていると思う。 フルセットのXPathのような多様な指定ができるわけではないので、専用のライブラリを使った方がかゆいところに手は届く部分も多いけど、細かいライブラリの使い方を勉強しなくても、普段使ってるScalaのCollectionみたいな気分で要素を操作できるのは、なかなかに心地良い。 ScalaのXML操作の基本 ScalaでXMLを扱う場合は、scala.xml配下のXML、Elem、Node、NodeSe
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く