これはやばい!凄すぎる。 現在進めようと思っているプロジェクトでは、サイト上の本文抽出が重要な技術になっていた。だが、それを一から開発していたのではあまりに時間がかかってしまう。さらに重要な技術ではあるが、それが売りと言う訳ではなかった。 そこで見つけたのがこのソフトウェアだ。まさに理想的な方法かも知れない。 今回紹介するオープンソース・ソフトウェアはWebstemmer、タイトル・本文抽出クローラーだ。 WebstemmerはPythonで作られたクローラーで、Webクローラー/レイアウト分析/テキスト抽出/URL DB操作/簡易的なテキスト抽出の5つの機能が提供されている。 動作原理については公式サイトを参考にして欲しいが、個人的にも考えていた(考えていただけ)方法に近い。学習時間が長いのが難点だが、複数台のPCで分散化できれば問題なくなるだろう。 特徴的なのは、特定の言語に左右される
![MOONGIFT: » タイトル・本文抽出クローラー「Webstemmer」:オープンソースを毎日紹介](https://cdn-ak-scissors.b.st-hatena.com/image/square/5b77db804c69b51b3167dd1e1ade43bf4e33b573/height=288;version=1;width=512/https%3A%2F%2Fmoongift-assets.s3.amazonaws.com%2Fassets%2Fnone-c3f80f5acd8206a735bb12db1e77cb6d.png)