gayouのブックマーク / 2023年3月7日 - はてなブックマーク

Web記事の本文をJavaで抽出する - きしだのHatena

指定したURLの記事本文を取ってくる処理がほしいなぁと思って、しかしいろいろ考えるのは面倒と思ったけど、少なくともJavaで簡単に使えるものがなさそうなので実装した。参考にしたのはこちら。 HTMLからの本文自動抽出 - アドファイブ日記（ミラー版）テキストが長いタグは本文、直下のタグは本文への寄与が多い、のようにしてスコアを求め、そして全体テキストに対してスコアが高ければ本文だろう、という感じ。上記サイトと変えたところは、<li>タグの点数をさげているところ。読売の記事が最後に各カテゴリの説明をもっていて、記事より長くなりがちでそちらが抽出されることが多そうなので、点数をさげた。前回のブログ記事で試すとちゃんと取れている。ソースはこんな感じ。HTML処理にはjsoupを使っている。 https://jsoup.org/ import java.io.IOException; i

はてなブックマーク

タグ

2023年3月7日のブックマーク (2件)

Web記事の本文をJavaで抽出する - きしだのHatena

全ブラウザ対応したcontainer queryは何がスゴイのか？

お知らせ

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

今週のはてなブックマーク数ランキング（2024年10月第3週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス