タグ

Searchに関するlinoleumlのブックマーク (2)

  • DAISEN:Directory Architecture for Integrated Search Engine

    「専門検索サイトの動的統合による次世代検索システムの研究開発」 DAISENは九州大学 情報基盤研究開発センター 廣川研究室で開発されている 専門検索サイトの統合検索システムです。 研究開発は、情報処理振興事業協会(IPA)の委託により財団法人ソフトウェア工学研究財団(RISE)が実施した 平成13年度「高度情報化支援ソフトウェアシーズ育成事業」による成果です。 また、株式会社ヒューマンテクノシステムによる支援を受けています。 公開している開発成果物の知的所有権について 当サイトで公開している統合検索システムDAISENに対する知的所有権は情報処理振興事業協会(IPA)と 九州大学情報基盤研究開発センター廣川研究室とが共有しています。

  • Latent Semantic Indexing - naoyaのはてなダイアリー

    情報検索におけるベクトル空間モデルでは、文書をベクトルとみなして線形空間でそれを扱います。この文書ベクトルは、文書に含まれる単語の出現頻度などを成分に取ります。結果、以下のような単語文書行列 (term document matrix) が得られます。 d1 d2 d3 d4 Apple 3 0 0 0 Linux 0 1 0 1 MacOSX 2 0 0 0 Perl 0 1 0 0 Ruby 0 1 0 3 この単語文書行列に対して内積による類似度などの計算を行って、情報要求に適合する文書を探すのがベクトル空間モデルによる検索モデルです。 見ての通り、単語文書行列の次元数は索引語の総数です。文書が増えれば増えるほど次元は増加する傾向にあります。例えば索引語が100万語あって検索対象の文書が 1,000万件あると、100万次元 * 1,000万という大きさの行列を扱うことになりますが、単

    Latent Semantic Indexing - naoyaのはてなダイアリー
  • 1