全文検索エンジン性能評価 (2006/08/19) 概要 弊社が開発致しました圧縮インデックス方式全文検索エンジン「Sedue」(Sedue 24やGenome Sedueで利用されているエンジンSedue コア)とオープンソースな全文検索エンジン(HyperEstraier, Lucene, Senna)との性能比較を行いました。検索サーバーにはマシン1台のみを使用しました。 更新履歴 2006/09/13 インデクシングの作成方法に関して分かりにくい表現を訂正 使用環境 ベンチマークを取るに際しまして以下のようなスペックのマシンを使用致しました。 CPU: AMD Athlon(tm) 64 Processor 3000+ Memory: 2GB OS: Linux pfidev1 2.6.16-1.2111_FC4 #1 Sat May 20 20:00:28 EDT 2006 x8
今、PFIでは、Sedueという全文検索システムを開発しています。 これは、メンバーである岡野原君(http://homepage3.nifty.com/DO/) が作成した圧縮サフィックスアレイをベースにした全文検索システムです。 圧縮サフィックスアレイを用いると、元の文章とインデックスの両方を、 元の文章量以下で格納することができます。そして、検索速度も、今一般的に 利用されているn-gram方式と同じ精度を、より高速に検索することができます。 あえて今全文検索エンジンを開発するには、いま沢山ある全文検索エンジンに対して優位性を持たねばなりません。Sedueは、この省メモリなインデックスに着目して、ほぼon-memoryでインデックスを処理できる、という特徴を持っています。コンピュータの中で最も壊れやすい部分は、間違いなくHDDです。ようは、ぐるぐる動くところ。また、HDDはランダムア
Webサービスの裏側では様々なデータが蓄積されており、また企業内ではWord・Excel・メールなどの形でデータが日々増大しています。このデータを単にためておくだけではなく、有効活用するためにはデータからの「情報検索」が必須となります。 この「情報検索」を実現するためには、様々なデータソース(DB, ファイルリポジトリ等)からの柔軟なデータの取り込みと、大規模なデータに対して高速な検索を行うための検索エンジンが、Sedue(セデュー)。 様々な検索ニーズに対応する”統合検索プラットフォーム”です。 蓄積された大規模データから、いかに素早く・簡単に情報を取り出せるかをテーマに製品化、テキストデータの全文検索はもちろん、レコメンデーション(関連文書検索・行動履歴推薦)のための機能も備えています。またデータの取り込みはリアルタイムに行う事が出来ます。 これまでは異なる情報検索ニーズに対して、異な
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く