タグ

2011年5月20日のブックマーク (2件)

  • Apache Lucene - Wikipedia

    Apache Lucene(アパッチ ルシーン)は、Doug Cuttingによって開発された、Java製のFLOSSの検索ライブラリである。Luceneは、強力な文書インデキシング及び検索機能、スペルチェック、ハイライト、テキスト解析機能を提供する。Apacheのトップレベルプロジェクトの1つである。 Luceneは、Apache Solr、Elasticsearch等の検索プラットフォームで利用される検索ライブラリである。以前はLucene.NET、Mahout、Tika、Nutchといったサブプロジェクトが存在したが、現在はすべて独立したApacheのトップレベルプロジェクトとなっている。2010年3月から、Apache SolrがLuceneのサブプロジェクトとして開発コミュニティがマージされた。 Luceneで日語のテキスト解析を利用するためには、Kuromojiを利用したJa

  • 固有表現抽出 - Wikipedia

    出典は列挙するだけでなく、脚注などを用いてどの記述の情報源であるかを明記してください。 記事の信頼性向上にご協力をお願いいたします。(2024年6月) 固有表現抽出(こゆうひょうげんちゅうしゅつ、英語: named entity recognition、named entity identification、named entity chunking、named entity extraction)とは、計算機を用いた自然言語処理技術の一つであり、情報抽出の一分野である。文中から固有表現 (Named Entity) を抽出し、それを固有名詞(人名、組織名、地名など)や日付、時間表現、数量、金額、パーセンテージなどのあらかじめ定義された固有表現分類へと分類する。 新聞記事など現実世界に存在するテキストには大量の固有表現 (Named Entity) が含まれている。形態素解析などを行なう際