もう忘れない! なくさない! Yahoo!検索で見つけたサイトは、Yahoo!ブックマークに登録!家からでも、オフィスからでも、いつでも同じブックマークを参照できます。
これはやばい!凄すぎる。 現在進めようと思っているプロジェクトでは、サイト上の本文抽出が重要な技術になっていた。だが、それを一から開発していたのではあまりに時間がかかってしまう。さらに重要な技術ではあるが、それが売りと言う訳ではなかった。 そこで見つけたのがこのソフトウェアだ。まさに理想的な方法かも知れない。 今回紹介するオープンソース・ソフトウェアはWebstemmer、タイトル・本文抽出クローラーだ。 WebstemmerはPythonで作られたクローラーで、Webクローラー/レイアウト分析/テキスト抽出/URL DB操作/簡易的なテキスト抽出の5つの機能が提供されている。 動作原理については公式サイトを参考にして欲しいが、個人的にも考えていた(考えていただけ)方法に近い。学習時間が長いのが難点だが、複数台のPCで分散化できれば問題なくなるだろう。 特徴的なのは、特定の言語に左右される
ブラウザで使える RSS リーダーが増えてきました。 ブラウザで使える(いわゆる Web 型と呼ばれる)RSS リーダーは、複数人で共有して使われるため、RSS フィード提供者からしてみれば「何人の人に読まれているか分からない」といった問題点があります。 そこで、ひそかに進められている(というか、もう公然のルール)になっているのが「クローラーの User-Agent に 購読者数を送信する」というものです。 Web 型 RSS リーダーからのアクセスについては、この「User-Agent」に含まれている情報を見ることで、その先何人の人に購読されているかというのが簡単に把握できるようになっています。 ある意味、これは「RSS 配信者に知る権利がある」情報だと思いますので、これからも対応が進められるといいなぁ、と思います。 ということで、Web 型 RSS リーダーの User-Agent 一
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く