[B! 全文検索] igaiga07のブックマーク

igaiga07 id:igaiga07

全文検索に関するigaiga07のブックマーク (13)

https://docs.google.com/presentation/d/1LHplQ8nqNJNxaqY7DL4eM329jZKfO-E15XHoadYeLfE/mobilepresent?slide=id.g240ab6c060_0_0
igaiga07 2017/08/05
横山光輝三国志

全文検索
リンク
全文検索 - Wikipedia
順次走査検索、逐次検索ともいう。「grep」とはUNIXにおける文字列検索コマンドであり、複数のテキストファイルの内容を順次走査していくことで、検索対象となる文字列を探し出す。一般に「grep型」と呼ばれる検索手法は、事前に索引ファイル（インデックス）を作成せず、ファイルを順次走査していくために、検索対象の増加に伴って検索速度が低下するのが特徴である。ちなみに「grep型」とは実際にgrepコマンドを使っているという意味ではない。インデックス作成型全文検索システム検索対象となる文書数が膨大な場合、grep型では検索を行うたびに1つ1つの文書にアクセスし、該当データを逐次検索するので、検索対象文書の増加に比例して、検索にかかる時間も長くなっていってしまう。そこであらかじめ検索対象となる文書群を走査しておき、高速な検索が可能になるような索引データを準備することで、検索時のパフォーマンスを向
igaiga07 2011/11/09
wikipedia

全文検索
リンク
Invention Works: 全文検索エンジンの導入
検証対象・PostgreSQL GIN Index http://www.postgresql.jp/document/pg836doc/html/gin.html - PostgreSQLの転置インデックス・Lucene http://lucene.apache.org/ - Javaで書かれた全文検索エンジン実績多数今回使用したソース。 Senの辞書、Luceneのインデックス等は自分で作成してください。 fulltextsearch-sample.zip 調査データ青空文庫(http://www.aozora.gr.jp/)のデータを取り込んでそれぞれ検証した。テキストデータの行ごとにレコード、インデックス作成を行い。それぞれ検証を行った。対象レコードは約100万レコード検証はローカルのPostgresql 8.4上で行った。設定はデフォルト。 PostgreSQ
igaiga07 2009/11/02
java

全文検索
リンク
Aho Corasick 法 - naoyaのはてなダイアリー
適当な単語群を含む辞書があったとします。「京都の高倉二条に美味しいつけ麺のお店がある」*1という文章が入力として与えられたとき、この文章中に含まれる辞書中のキーワードを抽出したい、ということがあります。例えば辞書に「京都」「高倉二条」「つけ麺」「店」という単語が含まれていた場合には、これらの単語(と出現位置)が入力に対しての出力になります。この類の処理は、任意の開始位置から部分一致する辞書中のキーワードをすべて取り出す処理、ということで「共通接頭辞検索 (Common Prefix Search)」などと呼ばれるそうです。形態素解析、Wikipedia やはてなキーワードのキーワードリンク処理などが代表的な応用例です。 Aho Corasick 法任意のテキストから辞書に含まれるキーワードをすべて抽出するという処理の実現方法は色々とあります。Aho Corasick 法はその方法のひと
igaiga07 2009/04/13
全文検索

python

programming
リンク
1日で作る全文検索エンジン - Building a full-text search engine in "ONE" day - - とあるはてな社員の日記
最近、「Introduction to Information Retrieval」というStanfordの大学院向け教科書のドラフトを読んでいます。id:naoyaあたりが勉強会で読んでいる教科書です。この教科書には、効率のいい全文検索システムを作るにはどうすればいいか、という(まさに)教科書的手法が網羅的に書いてあり、そのあたりに興味がある人には、非常に興味深く読めるお勧めの本です。ただ、面白い面白いと言っているだけでは、エンジニアとしては価値半減ですので、GW中にrubyで一日かけて実装してみました。さすがに実装は、一日で作ったものですから、非常に素朴です。マルチバイト文字はbi-gramで、シングルバイトはスペースなどの区切り記号で認識しています。インデックスは、rubyの処理系のHashやArrayで保持しており、外部にMarshallで書き出す、というものです。検索エンジン
igaiga07 2008/12/15
全文検索

あとで読む
リンク
Lux: Distributd full-text search engine
Lux is a distributed full-text search engine library. It helps to retrieve large amount of documents efficiently.
igaiga07 2008/04/08
lux

検索エンジン

全文検索
リンク
livedoor Techブログ : 全文検索エンジン lucene(ルシーン) を使ってみた
こんにちは。検索関連を担当しているやましーです。今回は livedoor で提供しているサービスの中の「検索関連」について書きます。このブログでも過去に何度か取り上げられていますが、livedoor では検索エンジンとして HyperEstraier、lucene、mysql + senna、Namazu、SUFARY などを利用しています。その中で lucene の利用方法や機能拡張について説明します。 lucene とは Apache Lucene は、Java で書かれた高性能で高機能な検索エンジンライブラリです。全文検索を（特にクロスプラットフォームで）必要とするほとんどのアプリケーションに適している技術です。※ 公式サイトから抜粋インデックスの作成 lucene は転置インデックス型の検索エンジンなので、ドキュメントを検索するには、まずインデックスの作
igaiga07 2008/04/02
lucene

全文検索

検索エンジン
リンク
i-revo お客様サポート重要なお知らせ
i-revo お客様サポート重要なお知らせ i-revoマイポータル終了のお知らせ（2017年3月31日）日頃よりi-revoマイポータルをご愛顧いただき誠にありがとうございます。このたび、当サイトは2017年3月31日付けにてサービスを終了いたしました。併せて「プニマル」、「i-revo 占い」についてもサービスを終了いたしました。 2006年3月のサービス開始以来、お客様および関係各社の皆様にはさまざまに、ご協力をいただきました。ここに御礼申し上げます。 i-revoマイポータルのサービス終了につきまして、なにとぞご理解いただきたく存じます。今後とも「i-revo」をよろしくお願い申し上げます。全て見る
igaiga07 2008/02/25
senna

全文検索

形態素解析

検索エンジン
リンク
Lists of the full-text retrieval softwares which can handle japanese properly.
INDEX このページの目的全文検索技術について簡単にフリーソフトウェアで日本語の通るものフリーソフトウェアだが日本語が通らないもの商用製品で日本語の通るものどのシステムを選ぶべきか実際の導入事例の比較一覧参考文献紹介掲載ありがとうページ作者のつぶやき Since: Thu Apr 17 13:43:10 1997 Last Refreshed: Fri Nov 12 00:05:46 JST 2004 時間の都合上、この一年ほどは十分にメンテナンスできていません。ご利用の際には、その旨、悪しからずご了承下さい。(2002/5/31) ★ (2003/7/1) 拙著『Namazuシステムの構築と活用』を改訂しました。詳しくはサポートページをご覧ください。 ★ (2003/5/21) MitakeSearch v4.0 リリース。 ★ (2003/4/25) Ver
igaiga07 2008/01/24
全文検索

検索エンジン
リンク
新しい全文検索エンジンを求めて | Oliverの日記 | スラド
システムアップグレードの課題として大きく残っているのが検索エンジンの選定だ。MySQLの標準の全文検索エンジンでは日本語の単語の切り分けができないので、Slashcodeの標準のものは使えない。現状はSlashcodeとは完全に並行する形でNamazuを使っているが、辞書を鍛えてないこともあり「わかち書き」の不完全さにより、精度が低すぎてほとんど使えないものだ。そこで、新システムでは新しいエンジンを使って、より統合された検索システムを実装したい。ストーリー本文だけでなく、コメントや日記も検索対象になる予定だ。要求仕様はこんな感じだ精度が高い。index付きgrep並の精度が欲しい。=> n-gram方式?複数のマシンでNFSを使ってindexを共有可能。検索は絶対必要。書き込みのきちんとした排他もできれば。統合できる様、Perl APIが欲しい代案としては、XML-RPCなどの軽いリモ
igaiga07 2008/01/24
検索エンジン

全文検索
リンク
全文検索システム Namazu
Namazuとは? Namazu は手軽に使えることを第一に目指した日本語全文検索システムです。CGI として動作させることにより小中規模の WWW 全文検索システムを構築することができるほか、コマンドラインや Emacs上から利用するといった個人用途にも使えます。目次新着情報主な特徴ライセンスダウンロード安定版ソースコード Debian GNU/Linux用debパッケージ Windows版インストール検索チュートリアル説明書豆知識 FAQ 関連リンク集メイリングリスト Wiki/バグ追跡システムセキュリティに関する考察開発情報歴史資料出版物催し関連 Namazu Projectとはサービス復旧状況新着情報 2011-07-18: Namazu 2.0.21 を公開セキュリティフィックスリリース IE6,7のクロスサイトスクリプティング脆弱性
igaiga07 2008/01/24
全文検索

namazu
リンク
全文検索エンジンSedueベンチマーク
全文検索エンジン性能評価 (2006/08/19) 概要弊社が開発致しました圧縮インデックス方式全文検索エンジン「Sedue」（Sedue 24やGenome Sedueで利用されているエンジンSedue コア）とオープンソースな全文検索エンジン(HyperEstraier, Lucene, Senna)との性能比較を行いました。検索サーバーにはマシン1台のみを使用しました。更新履歴 2006/09/13 インデクシングの作成方法に関して分かりにくい表現を訂正使用環境ベンチマークを取るに際しまして以下のようなスペックのマシンを使用致しました。 CPU: AMD Athlon(tm) 64 Processor 3000+ Memory: 2GB OS: Linux pfidev1 2.6.16-1.2111_FC4 #1 Sat May 20 20:00:28 EDT 2006 x8
igaiga07 2008/01/24
search

全文検索

Sedue
リンク
http://www.itarchitect.jp/enterprise/-/25122-1.html
igaiga07 2008/01/24
lucene

全文検索
リンク
1