[B! 検索エンジン] yahihiのブックマーク

オレオレ検索窓を設置しよう - mixi engineer blog

まだピクミン2をクリアしてないのでケジメ的に新作ゲームを買えないmikioです。今回は、Tokyo Cabinetを使って激烈簡単に特定サイトの専用の検索機能を設置する方法について説明します。クローリングから検索までを10分くらいの作業で可能にします。特定サイトの検索エンジン Web全体の検索機能を作るのは、途方もない技術力と設備を持っているGoogleやMicrosoftなどのビッグプレーヤでないと難しいのが現実です。でも、自分が気に入っているいくつかのサイトを対象とした検索エンジンを作るのであれば個人だってできます。また、インターネットから手が届かないイントラネットのコンテンツの検索機能は自分達で手がけないと構築できません。ということで、企業用の検索システムが数多く売られていますし、LuceneやGroongaやHyper Estraierなどのオープンソース製品も世に多数存在しま

yahihi 2011/12/28

検索エンジン

リンク

Wikipedia のテキストデータを使ってベンチマークをする! その1 思い立ったこと - Solr, Python, MacBook Air in Shinagawa Seaside

テキスト検索のベンチマークをしたいと思い立ちました。テストデータにはWikipediaのデータを使おうと思います。現在日本語Wikipediaのページ数は約130万ページです。 Solrに入れるときには1ページ1ドキュメントになるので 130万ドキュメントのインデックスが作られることになります。 Webクローラをガシガシ動かすようなシステムならこんなドキュメント数は何の参考にもならないですが一般的な?社内システムみたいなものだとそれなりに参考になる数値だと思います。テキスト検索の性能を上げるためにRDBのデータをSolrに移すなんてこともよくありますがこの場合はRDBの1レコードが1ドキュメントになるイメージになります。検索エンジンを使いたくなるほどの文章量が入ったテーブルのレコード数が 100万レコードを超えるのってそう多くはないでしょ? ちなみに、Wikipedia の

yahihi 2011/08/16

リンク

メインページ - Milkode

動作デモ [edit] Milkodeとは？行指向のソースコード検索エンジンとウェブアプリです。数万オーダーのソースコードから目的の関数や変数を素早く検索することが出来ます。特徴ダウンロードチュートリアルマニュアルコミュニティリンク集 [edit] What's New? 2011/08/01 デモページ追加 2011/07/30 特徴、チュートリアル追加 2011/07/25 サイト開設

yahihi 2011/08/02

リンク

Hyper Estraier インストール（３）　オリジナル検索エンジンの作成 : Enjoy Hyper Estraier

2007年06月15日 22:33 Hyper Estraier インストール（３）　オリジナル検索エンジンの作成前回までで、とりあえずコマンド上でHyper Estraierが使えるようになりました。せっかくここまで来たらオリジナル検索エンジンを公開したくなりませんか？ Hyper Estraierには高性能のクローラーもついていますし、CGIによる検索サンプルプログラムも付属していますので、いくつかのファイルを設定するだけでオリジナル検索エンジンを公開することができます。今回は１台のPCで（一応）P2P機能を使ってクローラーを動かして、検索するところまで解説したいと思います。同じ原理で複数台用意すればあなた専用P2P検索エンジンが手に入るはず。１台だとしてもノードを使ったほうが色々便利みたいです。（RSS配信できたり、複数のインデックスを同時に使えたり）今回は特定サ

yahihi 2011/07/11

リンク

Fessで作るApache Solrベースの全文検索サーバー　～導入編

はじめにドキュメントは日々増えて続けています。ドキュメントの数が多くなるほど、目的の情報は見つけにくくなるため、それらのドキュメントを効率よく管理する方法が必要です。その解決策の一つとして、複数のドキュメント（ファイル）をまたいで検索することができる「全文検索サーバー」の導入が挙げられます。 Fessは簡単に導入できる、Javaベースのオープンソース全文検索サーバーです。Fessの検索エンジン部分にはApache Solrを利用しています。Solrは、2億ドキュメントもインデックス可能と言われる非常に高機能な検索エンジンです。一方で、Apache Solrで検索システムを構築しようとする場合、クローラ部分などを自分で実装する必要性があります。Fessではクローラ部分にSeasar Projectから提供されるS2Robotを利用して、ウェブやファイルシステム上の様々な種類のドキュメントを

yahihi 2010/12/17

リンク

全文検索システム Hyper Estraier

概要 Hyper Estraierは全文検索システムです。たくさんの文書の中から、特定の語句を含むものを探して、該当するものの一覧を表示することができます。Webサイトを運営している方なら、自分のサイト専用の検索エンジンとして利用することができます。メールボックスやファイルサーバを対象とした検索ツールとして利用することもできます。 Hyper Estraierには、次のような特徴があります。インデックスを使った高速な検索ができます。大量の文書のインデックスを短時間で作成できます。 N-gram方式による漏れのない検索ができます。形態素解析とN-gramのハイブリッド機構で検索精度を向上させます。フレーズ検索や正規表現検索や属性検索や類似検索をサポートします。世界各国の言語が扱えます。対象文書の所在や形式に依存しません。賢いWebクローラが付属しています。ライブラリとして各種

yahihi 2010/02/03

リンク

はてなブックマーク

タグ

関連タグで絞り込む (9)

検索エンジンに関するyahihiのブックマーク (6)

お知らせ

月間はてなブックマーク数ランキング（2024年9月）

今週のはてなブックマーク数ランキング（2024年9月第5週）

今週のはてなブックマーク数ランキング（2024年9月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス