指定したURLの記事本文を取ってくる処理がほしいなぁと思って、しかしいろいろ考えるのは面倒と思ったけど、少なくともJavaで簡単に使えるものがなさそうなので実装した。 参考にしたのはこちら。 HTMLからの本文自動抽出 - アドファイブ日記(ミラー版) テキストが長いタグは本文、直下のタグは本文への寄与が多い、のようにしてスコアを求め、そして全体テキストに対してスコアが高ければ本文だろう、という感じ。 上記サイトと変えたところは、<li>タグの点数をさげているところ。読売の記事が最後に各カテゴリの説明をもっていて、記事より長くなりがちでそちらが抽出されることが多そうなので、点数をさげた。 前回のブログ記事で試すとちゃんと取れている。 ソースはこんな感じ。HTML処理にはjsoupを使っている。 https://jsoup.org/ import java.io.IOException; i