タグ

2017年12月23日のブックマーク (3件)

  • HTMLの本文抽出についての調査

    最近作ろうとしているものにだんだんと必要になって来た「HTML文抽出」。 例えばスマートニュースやPocketなどでのみられる「最適化された記事表示」。 昨今のモバイル回線事情を鑑みるに、UXを追求するとどうしても欲しくなってくる。 他の場面でも必要だったりする。それは検索エンジンや記事分類の前処理としての文抽出。 HTMLからタグやCSSJavaScriptを抜くのはもちろんだが、 いわゆるUIパーツのHTMLを省いて記事体のみを抽出できると、検索精度があがる。 例えば、カレンダーパーツが設置されていたりすると、どのページでも「1月」が引っかかりしてしまい、当に「1月」について述べている記事が埋もれてしまう。 世の中では至る所で必要となる技術なので、いくつか手法がweb上に載っていることを期待して調査してみる。 読んだページをあげてみる。 PythonでブログのHTMLから

    amamako
    amamako 2017/12/23
  • PythonでブログのHTMLから本文抽出 2015 - orangain flavor

    2015-12-20 19:14追記: readabilityの説明を追加・修正しました。 Webページをクロールした時に、ざっくりと文 (ページ内の重要なコンテンツ) のみを抽出できると便利です。 Google検索すると、特に日語だとExtractContent以外の情報があまり見つかりません。 ExtractContentは昔使ったことがあり、たしかに便利なのですが、公開が2007年と若干古いので今でも使えるのかという疑問がありました。また、Pythonで他の選択肢として使えるライブラリは、非日語圏の方が作ったものと思われるので、日語のページで問題なく使えるのか知りたかったので調べてみました。 比較するライブラリ 比較したのは以下の5つのライブラリです。 dragnet eatiht extractcontent goose readability パッケージ名 dragnet

    PythonでブログのHTMLから本文抽出 2015 - orangain flavor
  • Shaarli - とてもシンプルなソーシャルブックマーク

    MOONGIFTはオープンソース・ソフトウェアを紹介するブログです。2021年07月16日で更新停止しました かつて一世を風靡したDeliciousですが、サービスの展開において二転三転している内に、個人的には徐々に離れていってしまっています。純粋なソーシャルブックマークとしては非常に便利でユニークなサービスでした。 その頃のDeliciousを彷彿とさせるようなシンプルなソーシャルブックマークエンジンがShaarliです。自分のサイトに設置してみても面白いのではないでしょうか。 Shaarliの使い方 こちらがトップページ。シンプルですね。 一件だけ。特に表示は変わりません。 テキストやタグで絞り込むことができます。 タグごとでのフィード配信にも対応しています。 ユニークなのはピクチャーウォールでしょうか。画像でブックマークが見られます。 Shaarliは機能としてはあまり多くなく、シン

    Shaarli - とてもシンプルなソーシャルブックマーク
    amamako
    amamako 2017/12/23