タグ

crawlerに関するcombat38kのブックマーク (3)

  • 検索サーバー:国内に設置 実現へ著作権法改正方針―話題:MSN毎日インタラクティブ

    combat38k
    combat38k 2006/12/14
    国内サーバーでクローリング、インデクシングすると違法?
  • 全文検索システム Hyper Estraier

    概要 Hyper Estraierは全文検索システムです。たくさんの文書の中から、特定の語句を含むものを探して、該当するものの一覧を表示することができます。Webサイトを運営している方なら、自分のサイト専用の検索エンジンとして利用することができます。メールボックスやファイルサーバを対象とした検索ツールとして利用することもできます。 Hyper Estraierには、次のような特徴があります。 インデックスを使った高速な検索ができます。 大量の文書のインデックスを短時間で作成できます。 N-gram方式による漏れのない検索ができます。 形態素解析とN-gramのハイブリッド機構で検索精度を向上させます。 フレーズ検索や正規表現検索や属性検索や類似検索をサポートします。 世界各国の言語が扱えます。 対象文書の所在や形式に依存しません。 賢いWebクローラが付属しています。 ライブラリとして各種

  • Crawler Guide of Hyper Estraier Version 1 (Japanese)

    目次 はじめに チュートリアル クローラコマンド Web検索エンジンの実現 はじめに このガイドでは、Hyper EstraierのWebクローラの詳細な使い方を説明します。ユーザガイドとP2Pガイドをまだお読みでない場合は先にそちらに目を通しておいてください。 estcmdだとローカルのファイルシステム上にある文書(ファイル)を対象としたインデクシングしかできません。NFSやSMB等を用いてファイルシステムをリモートマウントすれば別のマシンにある文書をインデクシングすることもできますが、不特定対数のWebサイトの文書を扱おうとするとそうもいきません。wgetなどのクローラで文書を集めて来てローカルに保存してからインデクシングすることも考えられますが、ディスク容量の問題や更新頻度の問題などがあります。 Web上のリンクを辿って文書を収集することをWebクローリングと言い、そのプログラムをW

  • 1