amamakoのブックマーク / 2017年12月23日

amamako id:amamako

2017年12月23日のブックマーク (3件)

HTMLの本文抽出についての調査
最近作ろうとしているものにだんだんと必要になって来た「HTMLの本文抽出」。例えばスマートニュースやPocketなどでのみられる「最適化された記事表示」。昨今のモバイル回線事情を鑑みるに、UXを追求するとどうしても欲しくなってくる。他の場面でも必要だったりする。それは検索エンジンや記事分類の前処理としての本文抽出。 HTMLからタグやCSSやJavaScriptを抜くのはもちろんだが、いわゆるUIパーツのHTMLを省いて記事本体のみを抽出できると、検索精度があがる。例えば、カレンダーパーツが設置されていたりすると、どのページでも「１月」が引っかかりしてしまい、本当に「１月」について述べている記事が埋もれてしまう。世の中では至る所で必要となる技術なので、いくつか手法がweb上に載っていることを期待して調査してみる。読んだページをあげてみる。 PythonでブログのHTMLから本
amamako 2017/12/23
リンク
PythonでブログのHTMLから本文抽出 2015 - orangain flavor
2015-12-20 19:14追記: readabilityの説明を追加・修正しました。 Webページをクロールした時に、ざっくりと本文 (ページ内の重要なコンテンツ) のみを抽出できると便利です。 Google検索すると、特に日本語だとExtractContent以外の情報があまり見つかりません。 ExtractContentは昔使ったことがあり、たしかに便利なのですが、公開が2007年と若干古いので今でも使えるのかという疑問がありました。また、Pythonで他の選択肢として使えるライブラリは、非日本語圏の方が作ったものと思われるので、日本語のページで問題なく使えるのか知りたかったので調べてみました。比較するライブラリ比較したのは以下の5つのライブラリです。 dragnet eatiht extractcontent goose readability パッケージ名 dragnet
amamako 2017/12/23
python

プログラミング
リンク
Shaarli - とてもシンプルなソーシャルブックマーク
MOONGIFTはオープンソース・ソフトウェアを紹介するブログです。2021年07月16日で更新停止しましたかつて一世を風靡したDeliciousですが、サービスの展開において二転三転している内に、個人的には徐々に離れていってしまっています。純粋なソーシャルブックマークとしては非常に便利でユニークなサービスでした。その頃のDeliciousを彷彿とさせるようなシンプルなソーシャルブックマークエンジンがShaarliです。自分のサイトに設置してみても面白いのではないでしょうか。 Shaarliの使い方こちらがトップページ。シンプルですね。一件だけ。特に表示は変わりません。テキストやタグで絞り込むことができます。タグごとでのフィード配信にも対応しています。ユニークなのはピクチャーウォールでしょうか。画像でブックマークが見られます。 Shaarliは機能としてはあまり多くなく、シン
amamako 2017/12/23
リンク
- 2017年12月24日
- 2017年12月23日
- 2017年12月19日