タグ

text miningに関するcx20のブックマーク (6)

  • 米IBM、非構造化データ検索技術をオープンソース化

    米IBMは8月8日(米国時間)、文書や他のコンテンツ内のテキストを分析して潜在的な意味や事実の関連性を見つけ出す技術「Unstructured Information Management Architecture(UIMA)」をオープンソース化する計画を発表した。年内にオープンソースプロジェクトの管理サイト、SourceForgeでUIMAのソースコードを開示する。 UIMAは、IBMの研究所と米国防省の国防高等研究事業局(DARPA)が4年前から共同で研究・開発を進めてきた技術プロジェクトでは、文書、画像、コメントやノート、電子メール、リッチメディアなど、非構造化データに含まれるテキストを分析して、潜在する意味や関係、事実を理解することを目指している。 米Googleや米Yahooなどの技術はキーワード検索技術だが、企業内データの多くは非構造化データであり、そうしたデータを文脈に応じ

  • Expired

    Expired:掲載期限切れです この記事は,ロイター・ジャパンとの契約の掲載期限(30日間)を過ぎましたのでサーバから削除しました。 このページは20秒後にNews トップページに自動的に切り替わります。

  • Namazuベースの全文検索環境システム,シソーラス検索やDB検索機能など追加

    タイムインターメディアは8月1日,全文検索システムの大規模向けバージョン「Kabayaki エンタープライズ版」を発売した。Kabayakiは,オープンソースの全文検索ソフトウエア「Namazu」をベースにした製品。エンタープライズ版は,シソーラス検索機能やデータベース検索機能などを備える。 Kabayakiは,オープンソースの全文検索ソフトウエアNamazuに,Webの管理インタフェースなどを付加したもの。Linux版のライセンスはGPLで無償版と有償版がある。Windows版は有償。 Kabayaki エンタープライズ版は,シソーラス検索機能,ログ集計機能形態素解析キーワード設定機能を備えた。パフォーマンスも向上したという。またオプションでOracleMySQL,PostgreSQLのデータを検索できるデータベース検索機能も持つ。 Kabayaki エンタープライズ版は有償版のみ。L

    Namazuベースの全文検索環境システム,シソーラス検索やDB検索機能など追加
    cx20
    cx20 2005/08/02
  • 「人の脳のように」テキスト解析するソフト

    NTTデータはこのほど、大量の日語テキストから有用な情報をだけを抽出し、意味を解析できるというツール「なずき」を発売した。 顧客から寄せられた意見などのテキスト文章を解析し、何に対してどのような印象を受けているかを分析できる。例えば、「A化粧品を使うと肌がしっとりスベスベになった」という文章なら、「対象=A化粧品、評価=良、感性=賞賛」と分析する。 ブログやネット掲示板の書き込み、メール文章の解析も可能。誹謗中傷の監視や、情報漏えいの防止にも役立つとしている。 「なずき」は人間の脳の古称。人間のように、テキストに含まれる感情や意図などを理解し、適切に処理できるという意味を込めたという。

    「人の脳のように」テキスト解析するソフト
  • NTTデータ、日本語テキストの意味を分析するソフト「なずき」発売

    Windows SQL Server 2005サポート終了の4月12日が迫る、報告済み脆弱性の深刻度も高く、早急な移行を

  • アンテナハウスが言語工学研究所と提携、日本語解析エンジンを強化

    ▲シソーラスを利用した「デジタル類語辞典」のインタフェース。サーバー組み込み型のエンジンでもユーティリティとして付属する アンテナハウスは7月14日、言語工学研究所と提携し、日語処理に関する分野を強化すると発表した。アンテナハウスは同日より、言語工学研究所が開発しているサーバー組み込み用の日語解析エンジンを販売する。 言語工学研究所のサーバー組み込み用エンジンはシソーラス、形態素解析、構文解析、全文検索の4つ。シソーラスはある単語の関係語を検索し、分類表示するエンジン。同義語や広義語、語末一致語など単語の意味なども含めて分類された23万語の辞書だ。形態素解析は日語の文章を単語に分解するエンジンで、文節の区切りを出力したり、品詞ごとに分類することもできる。 構文解析はどの単語がどの単語を修飾しているかなどの「係り受け」関係や、疑問、否定、希望、などの「発話意図」を取り出すことが可能。全

    アンテナハウスが言語工学研究所と提携、日本語解析エンジンを強化
  • 1