見ていないが「同サイトのページを複数取得して、同一(に近い)部分があればそこが本文以外」と判断すると想像。

shidhoshidho のブックマーク 2007/09/03 11:11

その他

このブックマークにはスターがありません。
最初のスターをつけてみよう!

MOONGIFT: » タイトル・本文抽出クローラー「Webstemmer」:オープンソースを毎日紹介

    これはやばい!凄すぎる。 現在進めようと思っているプロジェクトでは、サイト上の文抽出が重要な技術になっていた。だが、それを一から開発していたのではあまりに時間がかかってしまう。さらに重要な技術では...

    \ コメントが サクサク読める アプリです /

    • App Storeからダウンロード
    • Google Playで手に入れよう