更新履歴 2004/01/07 O(N) 構築アルゴリズム三種追加(Ko &Alulu, Kim & al., Karkkainen & Sanders) Suffix Arrayは、最近注目を集めているデータ構造です。その理由として、 (1)大規模なデータに対して、高速に検索、情報抽出を行うことができる (2)BWTとしてデータ圧縮に用いることができる。 ことが挙げられます。(1)に関しては自然言語処理において、膨大な量のコーパスから情報(例えば、単語の出現回数など)を調べるときににSuffix Arrayを用いると非常に高速に求めることができます。 膨大な量のコーパスに基づいた自然言語処理が盛んになってきている今、Suffix Arrayが注目を集めています。 また、ゲノム情報を調べるバイオインフォマティクスにおいても、ここの配列と似ている部分(例えばCCAG)を調べるといった場合
Sematicsは6月15日,言語解析エンジンの最新版「Perceptron Engine」を発表した。語句の辞書データを使わずに解析するため高速という。同社の従来エンジン「Automaton Parser」で実現していた形態素解析と構文解析に加え,文脈解析と意味解析の機能を備えた。 同社の言語解析エンジンの特徴は,語句の辞書データを用いずに解析を行うこと。辞書が必要ないため,高速に処理できるほか,フット・プリントをコンパクトにできる。「(パソコンを使って)1センテンスを1000分の2秒で解析できる。500センテンスの解析は1秒で済む」(代表取締役の吹谷和雄氏)という。 同社が開発した第1号のエンジンであるAutomaton Parserは,統計的確率論によって,形態素解析と構文解析を実行するソフトである。語句を分割した最小単位である形態素ごとに分けて品詞を付与し,文節の係り受けを解析する
全文検索エンジン性能評価 (2006/08/19) 概要 弊社が開発致しました圧縮インデックス方式全文検索エンジン「Sedue」(Sedue 24やGenome Sedueで利用されているエンジンSedue コア)とオープンソースな全文検索エンジン(HyperEstraier, Lucene, Senna)との性能比較を行いました。検索サーバーにはマシン1台のみを使用しました。 更新履歴 2006/09/13 インデクシングの作成方法に関して分かりにくい表現を訂正 使用環境 ベンチマークを取るに際しまして以下のようなスペックのマシンを使用致しました。 CPU: AMD Athlon(tm) 64 Processor 3000+ Memory: 2GB OS: Linux pfidev1 2.6.16-1.2111_FC4 #1 Sat May 20 20:00:28 EDT 2006 x8
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く