タグ

全文検索エンジンに関するk_37toのブックマーク (5)

  • [を] 形態素解析と検索APIとTF-IDFでキーワード抽出

    形態素解析と検索APIとTF-IDFでキーワード抽出 2005-10-12-1 [Programming][Algorithm] 形態素解析器と Yahoo! Web 検索 API と TF-IDF を使ってキーワード抽 出するという先日の検索会議でのデモ、KEYAPI[2005-09-30-3]。 教科書に載っているような基中の基ですが、あらためてエッセンスを 簡単な例で解説したいと思います。 目的:キーワード抽出対象テキストから、そのテキストを代表する キーワードを抽出します。TF-IDF という指標を用います。(この値が大 きいほどその単語が代表キーワードっぽいということでよろしく。) TF-IDF を計算するためには、 (1) キーワード抽出対象テキスト中の代表キーワード候補出現数 (TF)、 (2) 全てのドキュメント数 (N)、 (3) 代表キーワード

  • ソフト/全文検索/情報源 - discypus

    [編集]概要 # 全文検索はその対象と用途で次の2種類に分けられる。 インターネットに対して自分のコンテンツの全文検索サービスを提供するもの イントラネット上で各種の文書の全文検索を行うもの 1.はGoogleなどと同じサービスを自分コンテンツに対して提供するもので、 対応する文書形式はhtml,xhtml,pdfが想定される。 2.は1.より多くの文書形式(MS-Word,MS-Excel,MS-Powerpointなど)に対応し、 ライセンス形態ではインターネットからのアクセスを想定していない。 市販の多くの製品は2.に類するものが1.より多いと考えられる。 ↑ [編集]情報源 # 日語全文検索エンジンソフトウェアのリスト http://www.kusastro.kyoto-u.ac.jp/~baba/wais/other-system.html 各サーチエンジンと使用サイトのリスト

  • フリーのかな漢字変換辞書たち

    いわゆる「かな漢字変換システム」に用いる事ができる、 フリーの(あるいはパブリックドメインの)辞書のリンク集です。きちんと 校正されたものから、かなりいい加減なものまで玉石混淆です。 時間の都合上、この一年ほどはまともにメンテナンスできていません。 また今後しばらくはその予定もありません。 ご利用の際には、その旨、悪しからずご了承下さい。(1999/9/18) INDEX はじめに 辞書たち フォーマット変換フィルタ達 リンク集 ページ作者のつぶやき Since: Sun Nov 2 10:43:55 1997 Last Refreshed: Sun Jan 18 19:15:34 JST 2004 1. はじめに ワークステーション上で動作するかな漢字変換システムには 各種ありますが、その中でも代表的な Wnn (Wnn4) の変換効率は、 一般に「バカ」と言われることが多いです。 し

  • Namazu - 全文検索で文書の山に立ち向かう

    我々は文書の山に囲まれて暮している。なかでも電子メールは身近 な存在である。 とあるシンポジウムでこんな出来事があった。討論の話題が IT (情報技術) 革命におよんだときに、年輩の先生が次のような質問 を投げかけた。「現時点でさえ、私は電子メールの処理に困ってい るのに、これ以上 IT革命が進んだらどうなるのか」 この質問に対し、司会者はすかさず「すでにIT革命に乗り遅れてし まっている先生からの、たいへんいい質問です」と応え、場内は大 いに沸いた。おそらく自分たちも困っているからこそ、多くの人 が笑ってしまったのではないかと思う。 かくいう筆者も電子メールの処理に苦労している人間の 1人である。 筆者のメールボックスには約 5万通、計 200MBのメールが溜まって いる。ほとんどのメールは後から参照することはないが、まれに参 照したくなるときがある。たとえば、この問題の解決策は以前に誰

  • 馬場肇ホームページ

  • 1