タグ

2009年4月22日のブックマーク (4件)

  • CJKTokenizerの全角>半角正規化のロジック修正(2.9) | 関口宏司のLuceneブログ

    一定期間更新がないため広告を表示しています

    CJKTokenizerの全角>半角正規化のロジック修正(2.9) | 関口宏司のLuceneブログ
    sifue
    sifue 2009/04/22
  • Sen - 形態素解析ライブラリ (Sen - MemoWiki v5)

    -Sen は Javaで書かれた形態素解析ライブラリ --MeCab の Java 移植版 -MeCab: Yet Another Part-of-Speech and Morphological Analyzer --http://mecab.sourceforge.jp/ --->MeCab (和布蕪)とは --->MeCab は 京都大学情報学研究科−日電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニットプロジェクトを通じて開発されたオープンソース形態素解析エンジンです. 言語, 辞書,コーパスに依存しない汎用的な設計を基方針としています. パラメータの推定に Conditional Random Fields (CRF) を用いており, ChaSenが採用している隠れマルコフモデルに比べ性能が向上しています。また、平均的に ChaSen, Juman, KAKASI

    sifue
    sifue 2009/04/22
  • Lucene - PukiWiki

    FrontPage Luceneとは? † Jakarta Luceneは完全にJavaで書かれたハイパフォーマンスな全文検索エンジンのライブラリです。Luceneは全文検索が必要なアプリケーションに適しています。特にクロスプラットフォーム性を重視する場合は有用です。Javaの検索エンジンとしては、Namazu on Java2等もありますが、Namazu on Java2はライセンスがGPLで公開されており、(GPLが悪いという訳ではありませんが...)Namazu on Java2をアプリケーションに組み込むと開発したアプリケーションにもGPLが適用されます。LuceneはApache Software Licence 2.0で配布されており、アプリケーションに組み込んでもソースコードを公開する必要はありません(もちろん公開しても構いません)。LuceneはEclipseのヘルプの検索

    sifue
    sifue 2009/04/22
  • Lucene 2.4とLucene 2.0の検索速度比較 - kaisehのブログ

    前回、Lucene 2.4と2.0でインデックス構築速度の比較をしたので、ついでに検索速度の比較もしてみました。 前回のエントリーでは、以下のようにインデックスを作成しました。 データ: 日語版Wikipediaのダンプから先頭20万記事 インデックス形式: 記事タイトル: Store.YES, Index.ANALYZED(元文字列+インデックス) 記事文: Store.COMPRESS, Index.ANALYZED(圧縮元文章+インデックス) アナライザ: CJKAnalyzer(bi-gram) このインデックスに対し、ランダムに選ばれた1000件の記事タイトルをクエリとして検索を行い、所要時間を計測しました(5回測定して中央値を採用)。ちなみに、初回の検索はsearcherがウォームアップされていないので、2回目以降に比べて非常に遅いです。 結果は次のようになりました。 バー

    Lucene 2.4とLucene 2.0の検索速度比較 - kaisehのブログ
    sifue
    sifue 2009/04/22