タグ

webとsoftwareに関するhidehishのブックマーク (2)

  • Webstemmer(クローラーツール)

    語サイトでは、具体的な性能は測定していませんが、 以下のようなサイトで正しく動くことがわかっています: アサヒ・コム Nikkei NET Mainichi INTERACTIVE Yomiuri On-line IT media 東京新聞 日刊スポーツ 信濃毎日新聞 livedoor ニュース 使いかた Webstemmer をつかったテキスト抽出は以下のようなステップになります: まず、特定のニュースサイトから種となる HTML ページを多数取得する。 取得したページのレイアウトを学習する。 別の日に、同一のニュースサイトから新しい HTML ページを取得する。 2. で学習した結果をつかって、新しい HTML ページから文を抽出する。 1. および 2. のステップが必要なのは最初の 1回だけです。 ひとたびサイトのレイアウトを学習してしまえば、 あとはレイアウトが大きく変更さ

    hidehish
    hidehish 2007/09/03
    htmlから本文を抽出する
  • MOONGIFT: » ブラウザベースの高性能プロジェクト管理「Epiware Document Management」:オープンソースを毎日紹介

    仕事をする時には情報は一箇所に集中しているのが良い。そしてプロジェクトで必要な要素といえば、タスクの管理とカレンダー、ドキュメント管理などではないだろうか。 ドキュメントはエクスプローラで、細かなことはWikiで、カレンダーはグループウェアで…そんな情報の散在は非効率的だ。ぜひこれを導入検討しよう。 今回紹介するオープンソース・ソフトウェアはEpiware Document Management、高性能プロジェクト管理ソフトウェアだ。 Epiware Document Managementではプロジェクト管理ソフトウェアとして、カレンダー、タスク管理、フォーラム、チーム管理等の機能がある。しかしそれだけでは収まらない魅力がある。 まずWiki機能がある。そしてドキュメント管理機能があり、チェックインすることでバージョン管理もできるようになっている。Wikiもファイルとして管理されるのでバー

    MOONGIFT: » ブラウザベースの高性能プロジェクト管理「Epiware Document Management」:オープンソースを毎日紹介
    hidehish
    hidehish 2007/08/29
    document management
  • 1