目標 スクレイピングして必要な情報を取ってくる スクレイピング対象の更新に合わせて、起動する スクレイピングした情報をまとめて、Twitterにポストする 実装 スクレイピング XPathなどを使ってクールにスクレイピングを決めようと思っていたが、壊れたHTMLも読めるようなちょうどいいライブラリが見つからなかったので、jericho html parserを今回は使った。 HTML以外にもPHPが読めたりと多機能なパーサーだが、XPathが使えない。 ここからダウンロードして、WEB-INF/libに配置した。 final Source source = new Source( new URL("http://google.com/") ); Element el = source.getElementById("ghead") .getAllElements(HTMLElementNa