最近作ろうとしているものにだんだんと必要になって来た「HTMLの本文抽出」。 例えばスマートニュースやPocketなどでのみられる「最適化された記事表示」。 昨今のモバイル回線事情を鑑みるに、UXを追求するとどうしても欲しくなってくる。 他の場面でも必要だったりする。それは検索エンジンや記事分類の前処理としての本文抽出。 HTMLからタグやCSSやJavaScriptを抜くのはもちろんだが、 いわゆるUIパーツのHTMLを省いて記事本体のみを抽出できると、検索精度があがる。 例えば、カレンダーパーツが設置されていたりすると、どのページでも「1月」が引っかかりしてしまい、本当に「1月」について述べている記事が埋もれてしまう。 世の中では至る所で必要となる技術なので、いくつか手法がweb上に載っていることを期待して調査してみる。 読んだページをあげてみる。 PythonでブログのHTMLから本