タグ

検索エンジンに関するyahihiのブックマーク (6)

  • オレオレ検索窓を設置しよう - mixi engineer blog

    まだピクミン2をクリアしてないのでケジメ的に新作ゲームを買えないmikioです。今回は、Tokyo Cabinetを使って激烈簡単に特定サイトの専用の検索機能を設置する方法について説明します。クローリングから検索までを10分くらいの作業で可能にします。 特定サイトの検索エンジン Web全体の検索機能を作るのは、途方もない技術力と設備を持っているGoogleMicrosoftなどのビッグプレーヤでないと難しいのが現実です。でも、自分が気に入っているいくつかのサイトを対象とした検索エンジンを作るのであれば個人だってできます。また、インターネットから手が届かないイントラネットのコンテンツの検索機能は自分達で手がけないと構築できません。 ということで、企業用の検索システムが数多く売られていますし、LuceneやGroongaやHyper Estraierなどのオープンソース製品も世に多数存在しま

    オレオレ検索窓を設置しよう - mixi engineer blog
  • Wikipedia のテキストデータを使ってベンチマークをする! その1 思い立ったこと - Solr, Python, MacBook Air in Shinagawa Seaside

    テキスト検索のベンチマークをしたいと思い立ちました。 テストデータにはWikipediaのデータを使おうと思います。 現在 日Wikipediaのページ数は約130万ページです。 Solrに入れるときには1ページ1ドキュメントになるので 130万ドキュメントのインデックスが作られることになります。 Webクローラをガシガシ動かすようなシステムなら こんなドキュメント数は何の参考にもならないですが 一般的な?社内システムみたいなものだとそれなりに参考になる数値だと思います。 テキスト検索の性能を上げるためにRDBのデータをSolrに移すなんてこともよくありますが この場合はRDBの1レコードが1ドキュメントになるイメージになります。 検索エンジンを使いたくなるほどの文章量が入ったテーブルのレコード数が 100万レコードを超えるのってそう多くはないでしょ? ちなみに、Wikipedia

  • メインページ - Milkode

    動作デモ [edit] Milkodeとは? 行指向のソースコード検索エンジンとウェブアプリです。 数万オーダーのソースコードから目的の関数や変数を素早く検索することが出来ます。 特徴 ダウンロード チュートリアル マニュアル コミュニティ リンク集 [edit] What's New? 2011/08/01  デモページ追加 2011/07/30  特徴、チュートリアル追加 2011/07/25  サイト開設

  • Hyper Estraier インストール(3) オリジナル検索エンジンの作成 : Enjoy Hyper Estraier

    2007年06月15日 22:33 Hyper Estraier インストール(3) オリジナル検索エンジンの作成 前回までで、とりあえずコマンド上でHyper Estraierが使えるようになりました。 せっかくここまで来たらオリジナル検索エンジンを公開したくなりませんか? Hyper Estraierには高性能のクローラーもついていますし、CGIによる検索 サンプルプログラムも付属していますので、いくつかのファイルを設定するだけで オリジナル検索エンジンを公開することができます。 今回は1台のPCで(一応)P2P機能を使ってクローラーを動かして、検索する ところまで解説したいと思います。 同じ原理で複数台用意すればあなた専用P2P検索エンジンが手に入るはず。 1台だとしてもノードを使ったほうが色々便利みたいです。 (RSS配信できたり、複数のインデックスを同時に使えたり) 今回は特定サ

    Hyper Estraier インストール(3) オリジナル検索エンジンの作成 : Enjoy Hyper Estraier
  • Fessで作るApache Solrベースの全文検索サーバー ~ 導入編

    はじめに ドキュメントは日々増えて続けています。ドキュメントの数が多くなるほど、目的の情報は見つけにくくなるため、それらのドキュメントを効率よく管理する方法が必要です。その解決策の一つとして、複数のドキュメント(ファイル)をまたいで検索することができる「全文検索サーバー」の導入が挙げられます。 Fessは簡単に導入できる、Javaベースのオープンソース全文検索サーバーです。Fessの検索エンジン部分にはApache Solrを利用しています。Solrは、2億ドキュメントもインデックス可能と言われる非常に高機能な検索エンジンです。一方で、Apache Solrで検索システムを構築しようとする場合、クローラ部分などを自分で実装する必要性があります。Fessではクローラ部分にSeasar Projectから提供されるS2Robotを利用して、ウェブやファイルシステム上の様々な種類のドキュメントを

    Fessで作るApache Solrベースの全文検索サーバー ~ 導入編
  • 全文検索システム Hyper Estraier

    概要 Hyper Estraierは全文検索システムです。たくさんの文書の中から、特定の語句を含むものを探して、該当するものの一覧を表示することができます。Webサイトを運営している方なら、自分のサイト専用の検索エンジンとして利用することができます。メールボックスやファイルサーバを対象とした検索ツールとして利用することもできます。 Hyper Estraierには、次のような特徴があります。 インデックスを使った高速な検索ができます。 大量の文書のインデックスを短時間で作成できます。 N-gram方式による漏れのない検索ができます。 形態素解析とN-gramのハイブリッド機構で検索精度を向上させます。 フレーズ検索や正規表現検索や属性検索や類似検索をサポートします。 世界各国の言語が扱えます。 対象文書の所在や形式に依存しません。 賢いWebクローラが付属しています。 ライブラリとして各種

  • 1