概要 Abstract 【主な特徴】 Named Entity Extraction Tool(以下NExT)は、固有表現抽出ツールです。 大量のテキスト文書情報に含まれる人名、組織名、地名、数量表現を自動的に判別し、 様々な形式で抽出・タグ付けします。NExTは、 形態素解析処理済のテキスト情報を入力とすることで、より精度の高い処理が可能です。 現在は、茶筅(ChaSen Ver.2.02[Matsumoto1998], chasen-2.3.0[Matsumoto2003])および Juman version 3.0[Kurohashi1996]の形態素解析システムの処理結果が利用可能です。 NExTは、 Perl で記述しています。NExTは、NExT開発 Project によって開発されています。 NExTは、Perlが動作する環境であれば、UNIX, Win32, OS/2 を
NTTデータは10月11日,同社が開発した全文検索エンジン「Ludia」をオープンソース・ソフトウエアとして無償公開した。オープンソースのDBMS PostgreSQLに格納されたテキスト・データの全文検索を行う。同社では「商用のデータベース管理ソフトに匹敵する速度と精度を備える」としている。 NTTデータでは「データベース内のデータの全文検索ではこれまで,オープンソース・ソフトウエアでは日本語に対応した高速・高精度なものが存在せず,データベースからデータを取り出し別のシステムを構築する必要があった。Ludiaは商用のデータベース管理ソフトに匹敵する速度と精度を備える」としている。 Ludiaは,N-gramと形態素解析の2種類の全文検索インデックス方式をサポートする。ブーリアン検索,近傍位置検索,類似文書検索といった検索が可能で,検索結果の合致度を示す「スコア」も提供する。 Ludiaは
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く