タグ

ブックマーク / www.unixuser.org/~euske (4)

  • Webstemmer のしくみ

    back [English] 基的な原理 レイアウト分析ツール analyze.py 文を抽出する extract.py パターンファイルの構造 おわりに 基的な原理 Webstemmer では、以下のような仮定をもとにして Web ページを分析しています。 すべての記事には共通した (たかだか数種類の) レイアウトが使われている。 各ページにはメインとなる文章がひとつ含まれている。 (従って、この原理は日記や掲示板などのサイトには使えません) 記事の文章は毎日変わっても、そのレイアウトは変わらない。 バナー広告やナビゲーションの HTML タグは同一レイアウトのページで不変。 Webstemmer はこの仮定をもとに、 あるニュースサイトの同一レイアウトをもつページをまとめ、 それらのページ中で「変化していない部分」をさがします。 バナーやナビゲーション用のリンクなどはレイアウトが

    kokogiko
    kokogiko 2009/05/12
  • Webstemmer(クローラーツール)

    語サイトでは、具体的な性能は測定していませんが、 以下のようなサイトで正しく動くことがわかっています: アサヒ・コム Nikkei NET Mainichi INTERACTIVE Yomiuri On-line IT media 東京新聞 日刊スポーツ 信濃毎日新聞 livedoor ニュース 使いかた Webstemmer をつかったテキスト抽出は以下のようなステップになります: まず、特定のニュースサイトから種となる HTML ページを多数取得する。 取得したページのレイアウトを学習する。 別の日に、同一のニュースサイトから新しい HTML ページを取得する。 2. で学習した結果をつかって、新しい HTML ページから文を抽出する。 1. および 2. のステップが必要なのは最初の 1回だけです。 ひとたびサイトのレイアウトを学習してしまえば、 あとはレイアウトが大きく変更さ

    kokogiko
    kokogiko 2009/05/12
  • 形態素解析・構文解析入門

    back 注意: このページの内容には、おそらく多くの間違いがあります。 リンクされているので残しておきますが、利用には注意してください。(2008年3月、新山) 目次 背景知識 形態素解析とは 構文解析とは 練習問題 言語処理関係の論文によく出てくる重要語 1. 背景知識 まず「形態素」、「構文」などといった用語は、ほとんどが 現在の科学的な「言語学」という分野に帰するものであることを 最初に知っておく必要がある。体系だった言語学は、おもに チョムスキー言語学の創始とともに始まった。 チョムスキーは 1960年代に、世界じゅうの数多くの言語には、 実はそのすべてに共通する「普遍文法 (universal grammer)」がある、と言った。 またチョムスキーはそのような文法を数学的な人工言語で 厳密に表現する方法をも開発した。彼によれば、言語にはその理想化された かたち (言語が言い間違

  • sshd_config - OpenSSH SSH デーモン 設定ファイル

    OpenSSH SSH デーモン 設定ファイル 書式 /etc/ssh/sshd_config 説明 sshd (8) は/etc/ssh/sshd_config(あるいはコマンドラインから-f オプションで指定したファイル) から設定を読み込みます。このファイルの各行は"キーワード 引数"の形式になっており、空行あるいは # で始まる行はコメントとみなされます。空白を含む引数はダブルクォート で囲んで表現することもできます。 使用できるキーワードとその説明は以下の通りです(キーワードでは大文字小文字は区別されませんが、引数では区別されることに注意してください): AcceptEnv (受け付ける環境変数) クライアントから送られた環境変数のうち、どれをそのセッションのenviron (7) にコピーするかを指定します。クライアント側をどのように設定するかについてはssh_config (

  • 1