sifueのブックマーク / 2009年4月22日

sifue id:sifue

2009年4月22日のブックマーク (4件)

CJKTokenizerの全角＞半角正規化のロジック修正（2.9） | 関口宏司のLuceneブログ
一定期間更新がないため広告を表示しています
sifue 2009/04/22
リンク
Sen - 形態素解析ライブラリ (Sen - MemoWiki v5)
-Sen は Javaで書かれた形態素解析ライブラリ --MeCab の Java 移植版 -MeCab: Yet Another Part-of-Speech and Morphological Analyzer --http://mecab.sourceforge.jp/ --->MeCab (和布蕪)とは --->MeCab は京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所共同研究ユニットプロジェクトを通じて開発されたオープンソース形態素解析エンジンです. 言語, 辞書,コーパスに依存しない汎用的な設計を基本方針としています. パラメータの推定に Conditional Random Fields (CRF) を用いており, ChaSenが採用している隠れマルコフモデルに比べ性能が向上しています。また、平均的に ChaSen, Juman, KAKASI
sifue 2009/04/22
リンク
Lucene - PukiWiki
FrontPage Luceneとは? † Jakarta Luceneは完全にJavaで書かれたハイパフォーマンスな全文検索エンジンのライブラリです。Luceneは全文検索が必要なアプリケーションに適しています。特にクロスプラットフォーム性を重視する場合は有用です。Javaの検索エンジンとしては、Namazu on Java2等もありますが、Namazu on Java2はライセンスがGPLで公開されており、(GPLが悪いという訳ではありませんが...)Namazu on Java2をアプリケーションに組み込むと開発したアプリケーションにもGPLが適用されます。LuceneはApache Software Licence 2.0で配布されており、アプリケーションに組み込んでもソースコードを公開する必要はありません(もちろん公開しても構いません)。LuceneはEclipseのヘルプの検索
sifue 2009/04/22
リンク
Lucene 2.4とLucene 2.0の検索速度比較 - kaisehのブログ
前回、Lucene 2.4と2.0でインデックス構築速度の比較をしたので、ついでに検索速度の比較もしてみました。前回のエントリーでは、以下のようにインデックスを作成しました。データ: 日本語版Wikipediaのダンプから先頭20万記事インデックス形式: 記事タイトル: Store.YES, Index.ANALYZED（元文字列＋インデックス）記事本文: Store.COMPRESS, Index.ANALYZED（圧縮元文章＋インデックス）アナライザ: CJKAnalyzer（bi-gram）このインデックスに対し、ランダムに選ばれた1000件の記事タイトルをクエリとして検索を行い、所要時間を計測しました（5回測定して中央値を採用）。ちなみに、初回の検索はsearcherがウォームアップされていないので、2回目以降に比べて非常に遅いです。結果は次のようになりました。バー
sifue 2009/04/22
リンク
- 2009年4月23日
- 2009年4月22日
- 2009年4月21日