teahutのブックマーク / 2007年10月19日

teahut id:teahut

2007年10月19日のブックマーク (4件)

Cybozu2iCal 0.20公開 - Ogawa::Memoranda
teahut 2007/10/19
cybozu

perl
リンク
全文検索エンジンSedueベンチマーク
全文検索エンジン性能評価 (2006/08/19) 概要弊社が開発致しました圧縮インデックス方式全文検索エンジン「Sedue」（Sedue 24やGenome Sedueで利用されているエンジンSedue コア）とオープンソースな全文検索エンジン(HyperEstraier, Lucene, Senna)との性能比較を行いました。検索サーバーにはマシン1台のみを使用しました。更新履歴 2006/09/13 インデクシングの作成方法に関して分かりにくい表現を訂正使用環境ベンチマークを取るに際しまして以下のようなスペックのマシンを使用致しました。 CPU: AMD Athlon(tm) 64 Processor 3000+ Memory: 2GB OS: Linux pfidev1 2.6.16-1.2111_FC4 #1 Sat May 20 20:00:28 EDT 2006 x8
teahut 2007/10/19
search

senna

estraier
リンク
nvacaの日記:Sedue全文検索システム - livedoor Blog（ブログ）
今、PFIでは、Sedueという全文検索システムを開発しています。これは、メンバーである岡野原君(http://homepage3.nifty.com/DO/) が作成した圧縮サフィックスアレイをベースにした全文検索システムです。圧縮サフィックスアレイを用いると、元の文章とインデックスの両方を、元の文章量以下で格納することができます。そして、検索速度も、今一般的に利用されているn-gram方式と同じ精度を、より高速に検索することができます。あえて今全文検索エンジンを開発するには、いま沢山ある全文検索エンジンに対して優位性を持たねばなりません。Sedueは、この省メモリなインデックスに着目して、ほぼon-memoryでインデックスを処理できる、という特徴を持っています。コンピュータの中で最も壊れやすい部分は、間違いなくHDDです。ようは、ぐるぐる動くところ。また、HDDはランダムア
teahut 2007/10/19
>圧縮サフィックスアレイを用いると、元の文章とインデックスの両方を、元の文章量以下で格納することができます。... 圧縮サフィックスアレイは、最新の研究成果なので、ノウハウがありません。

search
リンク
Sedue | PRODUCT | 株式会社 Preferred Infrastructure
Webサービスの裏側では様々なデータが蓄積されており、また企業内ではWord・Excel・メールなどの形でデータが日々増大しています。このデータを単にためておくだけではなく、有効活用するためにはデータからの「情報検索」が必須となります。この「情報検索」を実現するためには、様々なデータソース(DB, ファイルリポジトリ等)からの柔軟なデータの取り込みと、大規模なデータに対して高速な検索を行うための検索エンジンが、Sedue(セデュー)。様々な検索ニーズに対応する”統合検索プラットフォーム”です。蓄積された大規模データから、いかに素早く・簡単に情報を取り出せるかをテーマに製品化、テキストデータの全文検索はもちろん、レコメンデーション(関連文書検索・行動履歴推薦)のための機能も備えています。またデータの取り込みはリアルタイムに行う事が出来ます。これまでは異なる情報検索ニーズに対して、異な
teahut 2007/10/19
>Preferred Infrastructureによる大規模全文検索エンジン「Sedue」。Web検索からゲノム解析に至るまで、最新の圧縮全文索引アルゴリズムで高速・高精度かつ安定した検索ソリューションを提供します。

search
リンク
- 2007年10月20日
- 2007年10月19日
- 2007年10月18日