タグ

ブックマーク / www.unixuser.org/~euske (3)

  • Webstemmer(クローラーツール)

    語サイトでは、具体的な性能は測定していませんが、 以下のようなサイトで正しく動くことがわかっています: アサヒ・コム Nikkei NET Mainichi INTERACTIVE Yomiuri On-line IT media 東京新聞 日刊スポーツ 信濃毎日新聞 livedoor ニュース 使いかた Webstemmer をつかったテキスト抽出は以下のようなステップになります: まず、特定のニュースサイトから種となる HTML ページを多数取得する。 取得したページのレイアウトを学習する。 別の日に、同一のニュースサイトから新しい HTML ページを取得する。 2. で学習した結果をつかって、新しい HTML ページから文を抽出する。 1. および 2. のステップが必要なのは最初の 1回だけです。 ひとたびサイトのレイアウトを学習してしまえば、 あとはレイアウトが大きく変更さ

  • Webstemmer のしくみ

    back [English] 基的な原理 レイアウト分析ツール analyze.py 文を抽出する extract.py パターンファイルの構造 おわりに 基的な原理 Webstemmer では、以下のような仮定をもとにして Web ページを分析しています。 すべての記事には共通した (たかだか数種類の) レイアウトが使われている。 各ページにはメインとなる文章がひとつ含まれている。 (従って、この原理は日記や掲示板などのサイトには使えません) 記事の文章は毎日変わっても、そのレイアウトは変わらない。 バナー広告やナビゲーションの HTML タグは同一レイアウトのページで不変。 Webstemmer はこの仮定をもとに、 あるニュースサイトの同一レイアウトをもつページをまとめ、 それらのページ中で「変化していない部分」をさがします。 バナーやナビゲーション用のリンクなどはレイアウトが

  • my bashrc

    状況: いくつものホストに何回もログインする。 いくつかのホストはホームディレクトリを nfs で共有している (がすべてではない)。 ホストによってプロンプトの色を変えている (同じウインドウからあっちこっちにログインすると混乱するので)。 ちなみに emacs -nw のステータスバーの色もホストによって変わるようになっている。 ssh-agent を使っている。 GNU screen を使っている。 文字列処理をすることが異様に多い。 ## .bashrc ## Yusuke Shinyama ## ## 新しく作られたファイルのパーミッションがつねに 644 になるようにする。基。 umask 022 ## core ファイルを作らせないようにする。これも基。 ulimit -c 0 ## 環境変数の設定 # man とかを見るときはいつも less を使う。 export P

  • 1