概要 極力Scalaの標準機能を使って、HTMLをスクレイピングしてみようと思っていろいろ試したメモ。手探り状態なので、かなりうだうだとしています。 HTMLパーサはいろんな意味で手に負えないので、Validator.nu HTML Parserを使用。 前書き Scalaは標準でXPathっぽくXMLを扱う機能が用意されている。ので、Webスクレイピングという用途にはわりと向いていると思う。 フルセットのXPathのような多様な指定ができるわけではないので、専用のライブラリを使った方がかゆいところに手は届く部分も多いけど、細かいライブラリの使い方を勉強しなくても、普段使ってるScalaのCollectionみたいな気分で要素を操作できるのは、なかなかに心地良い。 ScalaのXML操作の基本 ScalaでXMLを扱う場合は、scala.xml配下のXML、Elem、Node、NodeSe