[B! 自然言語処理][検索] webmarksjpのブックマーク

webmarksjp id:webmarksjp

自然言語処理と検索に関するwebmarksjpのブックマーク (4)

シソーラス辞書検索
webmarksjp 2008/07/14
便利

*webサービス

810 jpn 日本語

02 BOOK

*webservice

自然言語処理

検索

dictionary

tool

辞書
リンク
suffix array
更新履歴 2004/01/07 　O(N) 構築アルゴリズム三種追加（Ko &Alulu, Kim & al., Karkkainen & Sanders) Suffix Arrayは、最近注目を集めているデータ構造です。その理由として、 (1)大規模なデータに対して、高速に検索、情報抽出を行うことができる (2)BWTとしてデータ圧縮に用いることができる。ことが挙げられます。(1)に関しては自然言語処理において、膨大な量のコーパスから情報（例えば、単語の出現回数など）を調べるときににSuffix Arrayを用いると非常に高速に求めることができます。膨大な量のコーパスに基づいた自然言語処理が盛んになってきている今、Suffix Arrayが注目を集めています。また、ゲノム情報を調べるバイオインフォマティクスにおいても、ここの配列と似ている部分（例えばCCAG）を調べるといった場合
webmarksjp 2008/07/14
algorithm

suffix array

文字列検索

プログラミング

*programming

アルゴリズム

検索

自然言語処理

programming
リンク
辞書を使わずに同義語を解析する言語解析エンジン，Sematicsが発表
Sematicsは6月15日，言語解析エンジンの最新版「Perceptron Engine」を発表した。語句の辞書データを使わずに解析するため高速という。同社の従来エンジン「Automaton Parser」で実現していた形態素解析と構文解析に加え，文脈解析と意味解析の機能を備えた。同社の言語解析エンジンの特徴は，語句の辞書データを用いずに解析を行うこと。辞書が必要ないため，高速に処理できるほか，フット・プリントをコンパクトにできる。「（パソコンを使って）1センテンスを1000分の2秒で解析できる。500センテンスの解析は1秒で済む」（代表取締役の吹谷和雄氏）という。同社が開発した第1号のエンジンであるAutomaton Parserは，統計的確率論によって，形態素解析と構文解析を実行するソフトである。語句を分割した最小単位である形態素ごとに分けて品詞を付与し，文節の係り受けを解析する
webmarksjp 2008/07/13
- 自然言語処理

形態素解析

自然言語処理

Library

検索

technology

research

sci

language
リンク
全文検索エンジン性能評価 - preferred infrastructure
全文検索エンジン性能評価 (2006/08/19) 概要弊社が開発致しました圧縮インデックス方式全文検索エンジン「Sedue」（Sedue 24やGenome Sedueで利用されているエンジンSedue コア）とオープンソースな全文検索エンジン(HyperEstraier, Lucene, Senna)との性能比較を行いました。検索サーバーにはマシン1台のみを使用しました。更新履歴 2006/09/13 インデクシングの作成方法に関して分かりにくい表現を訂正使用環境ベンチマークを取るに際しまして以下のようなスペックのマシンを使用致しました。 CPU: AMD Athlon(tm) 64 Processor 3000+ Memory: 2GB OS: Linux pfidev1 2.6.16-1.2111_FC4 #1 Sat May 20 20:00:28 EDT 2006 x8
webmarksjp 2008/07/12
search

algorithm

engine

text

performance

software

自然言語処理

検索
リンク
1

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx