一定期間更新がないため広告を表示しています
![Lucene/SolrをJava 7で使うときの注意(あるいはJava 6以前でもホットスポットのバグを踏む可能性あり) | 関口宏司のLuceneブログ](https://cdn-ak-scissors.b.st-hatena.com/image/square/2302e44c95c7e474fefb218540004f95dc47a4bb/height=288;version=1;width=512/https%3A%2F%2Fimaging.jugem.jp%2Ftemplate%2Fimg%2Fjugem_og-image.png)
Solr www.rondhuit.com Apache Lucene/Solr • Apache Lucene – Java • Apache Solr – Lucene • • N-gram • • • – • • • • • • • Fuzzy • Google • Google CharFilter – Reader CharStream +correctOffset(int):int CharReader input:Reader CharFilter input:CharStream correct(int):int BaseCharFilter pcmList: List<OffCorrectMap> getLastCumulativeDiff ():int addOffCorrectMap (int,int):void OffCorrectMap off:int
祝 Lucene2.9.0 リリース!! 2009/9/25 に Lucene2.9 がようやく正式リリースされました。 便乗して久しぶりの Solr ネタです。 この記事は Lucene2.9.0 がバンドルされている 2009/09/28版の Solr をもとに書いています。 http://people.apache.org/builds/lucene/solr/nightly/solr-2009-09-28.tgz 日本語の文章をインデキシングするときによく使われるトークナイザとして CJKTokenizerFactory があります。 CJKTokenizerFactory は 基本的には 2-gram (別名 bi-gram, bigram ) なので NGramTokenizerFactory で maxGramSize="2"としたときと 基本的には同じように動作するのですが
無料のオンラインハンズオンセミナーを開催しています 詳細・お申し込みはこちら 目次 Apache OpenNLP 日本語固有表現抽出モデルファイル livedoor ニュースコーパス 勉強会/セミナー資料 海外カンファレンス参加報告 セキュリティ警告 アーカイブズ Apache OpenNLP 日本語固有表現抽出モデルファイル Apache OpenNLP 1.9.0 以降で利用可能な、日本語固有表現抽出のための学習済みのモデルファイルです。商用利用可能です。 ダウンロード:rondhuit-ja-ner-1.0.0.zip(Apache License) livedoor ニュースコーパス 概要 本コーパスは、NHN Japan株式会社が運営する「livedoor ニュース」のうち、下記のクリエイティブ・コモンズライセンスが適用されるニュース記事を収集し、可能な限りHTMLタグを取り除い
A Comparison of Open Source Search Enginesにおいて、オープンソースソフトウェアとして提供されている検索エンジン実装を比較した結果が掲載されている。同ブログではソフトウェアとして提供されている検索エンジンの調査をはじめ、その数の多さに驚くとともに、それぞれの比較があまり実施されていないことに気がついたとし、とくに有名な検索エンジンソフトウェアの比較を実施したという内容になっている。 A Comparison of Open Source Search Enginesで比較されている検索エンジンソフトウェアは次のとおり。 Lucene (Java) zettair (C) sphinx (C++) Xapian (C++) 同ブログではLuceneがいいのではないかと意見をまとめている。カスタマイズせずにそのまま使える検索エンジンであり、扱いやすさが評
cles::blog 平常心是道 blogs: cles::blog NP_cles() « VMWareでディスクを拡張する :: 正規表現で制御文字をフィルタする » 2009/06/29 Solr1.4-devとcmecab-java nlp java solr 110 0へぇ 最近Solrでつくる検索サーバーが個人的にちょっとホットなので、自分でも環境構築をしてみました。 Solr 1.3で日本語の形態素解析に基づくインデックスを作りたい場合senのダウンロードページにあるlucene-ja-2.0test2.zipからlucene-ja.jarとsen.jarを取り出してlibに配置し、schema.xmlに下記を追加するように指示*1している場合が多いようです。 <fieldType name="text_sen" class="solr.TextField"> <ana
はじめまして。 プロダクト&サービス事業部 リーダーの久保です。 今日は、当社で利用しているOSSの全文検索アプリケーションであるApache Solrについてご紹介したいと思います。 GoogleでSolrを検索しても、日本語圏のコンテンツはまだまだ少ないようです。 当社がSolrを使い始めた昨年は現在よりもさらに少なく、結構苦労しました。 今回はやや雑多な内容となりますが、新しくSolrを使う際に必要と考えられる情報をまとめてみました。 本エントリーでは、Solr1.3を対象としています。 Solr1.3が現在の安定版で、Solr1.4-devが開発版となります。 目次 Solrとは 機能一覧 実績/事例 Solrを使ったシステムの開発方法 おすすめする方 データ量/性能とハードウェア マルチコア構成 様々な検索 スケールアウト 検索と更新 Solrを始めるための情報リスト 全
21日にECナビさんで開催されたSolr(そーら)勉強会に参加してきました。 http://atnd.org/events/937 Luceneを1、2年前ぐらいに触っていて、そのときSolrも調査したことがあったので、その頃からどのように変わったのか楽しみにしていきました。 以下発表内容のまとめです。 Solrとは?(ロンウィット関口さん) 全文検索ライブラリのLucene JavaのAPIを使うので、開発期間の短くなっている昨今では導入の敷居が高い SolrはLuceneを使った検索サーバ実装 HTTPベースのAPIが提供されている→言語を選ばない 検索アプリが非常に楽に作成可能→時代に合っている Solrとのデータやりとり XMLで登録データを作成(CSVでも可)→HTTPでPOSTすると登録が完了 検索結果もXMLでGETする 検索アプリでは、XMLで返ってきた結果を加工してHTM
情報インフラの発展に伴い,私たちが接する情報の絶対量は増加の一途をたどっています。そのため,目的とする情報をすばやくピンポイントで入手するのが困難な状況も増えています。 一方で情報提供側にとっても,情報を確実に利用者に届けることがビジネスの成功に重要な要素となってきており,これを実現するための努力が日々続けられています。 このような状況で,高速で柔軟性が高い検索処理のニーズが高まってきており,全文検索エンジンが注目を集めています。ここでは,オープンソースの全文検索エンジンである「Lucene/Solr」を紹介します。 Lucene/Solrとは Lucene/Solrは,Apache Software Foundation(ASF)のLuceneプロジェクトで開発されているソフトです。LuceneはPure Javaで実装された全文検索エンジンで,単独では実行不可能なライブラリの形式で提供
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く