タグ

ブックマーク / www.unixuser.org/~euske (4)

  • Webstemmer

    How to Use Text extraction with Webstemmer has the following steps: Obtain a number of "seed" pages from a particular site. Learn the layout patterns from the obtained pages. Later on, obtain updated pages from the same site. Extract texts from the newly obtained pages using the learned patterns. Step 1. and 2. are only required at the first time. Once you learned the layout patterns, you can use

    gamella
    gamella 2009/04/19
  • https://www.unixuser.org/~euske/doc/python/python-lisp-j.html

    gamella
    gamella 2008/05/19
  • Webstemmer(クローラーツール)

    語サイトでは、具体的な性能は測定していませんが、 以下のようなサイトで正しく動くことがわかっています: アサヒ・コム Nikkei NET Mainichi INTERACTIVE Yomiuri On-line IT media 東京新聞 日刊スポーツ 信濃毎日新聞 livedoor ニュース 使いかた Webstemmer をつかったテキスト抽出は以下のようなステップになります: まず、特定のニュースサイトから種となる HTML ページを多数取得する。 取得したページのレイアウトを学習する。 別の日に、同一のニュースサイトから新しい HTML ページを取得する。 2. で学習した結果をつかって、新しい HTML ページから文を抽出する。 1. および 2. のステップが必要なのは最初の 1回だけです。 ひとたびサイトのレイアウトを学習してしまえば、 あとはレイアウトが大きく変更さ

  • インタビュー: Theo de Raadt (2001年)

    This is a Japanese translation of Interview: Theo de Raadt. (c) KernelTrap Posted by Jeremy, 2001年11月26日 (月曜日) - 08:38 今週の KernelTrap では OpenBSD 開発者かつメンテナである Theo de Raadt 氏にインタビューした。 OpenBSD は現在利用できるもっともセキュアな OS として知られる。 その最新バージョン OpenBSD 3.0 は 2001年 12月1日にオフィシャルリリースが予定されている。 (訳注: 2005年 12月 現在の OpenBSD の最新バージョンは 3.8 である) Theo de Raadt氏はカナダのアルバータ州カルガリーに住んでいる。 彼は OpenBSD の作者であり、 この OS は現在利用できるもっともセ

    gamella
    gamella 2007/07/12
    ソフトウエアの品質について
  • 1