Rustが再評価される:エコシステムの現状と落とし穴 In this article, we share findings and insights about the Rust community and ecosystem and elaborate on the peculiarities and pitfalls of starting new projects with Rust or migrating to Rust from othe...
![PostgreSQLとNeo4Jがクラウドへの道を歩み始めた](https://cdn-ak-scissors.b.st-hatena.com/image/square/70cc0180240ae91d85976c51ecf81a8c77fc443a/height=288;version=1;width=512/https%3A%2F%2Fcdn.infoq.com%2Fstatics_s1_20240209115701%2Fstyles%2Fstatic%2Fimages%2Flogo%2Flogo-big.jpg)
RONDHUIT REPORT Vol.8 – LUCENE SCORING TIPS & TRICKS Copyright © RONDHUIT Co.,Ltd. 1 2011 3 24 Lucene Solr Lucene Similarity Similarity Javadoc Lucene 2.9 Similarity Javadoc http://lucene.apache.org/java/2_9_4/api/all/ org/apache/lucene/search/Similarity.html https://issues.apache.org/jira/browse/LUCEN E-1908 Lucene Excel Excel V V(q) V(d) (cos ) 2 2 2 V(q) V(d) |V(q)||V(d)| Excel RONDHUIT REPORT
無料のオンラインハンズオンセミナーを開催しています 詳細・お申し込みはこちら 目次 Apache OpenNLP 日本語固有表現抽出モデルファイル livedoor ニュースコーパス 勉強会/セミナー資料 海外カンファレンス参加報告 セキュリティ警告 アーカイブズ Apache OpenNLP 日本語固有表現抽出モデルファイル Apache OpenNLP 1.9.0 以降で利用可能な、日本語固有表現抽出のための学習済みのモデルファイルです。商用利用可能です。 ダウンロード:rondhuit-ja-ner-1.0.0.zip(Apache License) livedoor ニュースコーパス 概要 本コーパスは、NHN Japan株式会社が運営する「livedoor ニュース」のうち、下記のクリエイティブ・コモンズライセンスが適用されるニュース記事を収集し、可能な限りHTMLタグを取り除い
DebianにTomcat 7 + Apache Solr 3.5.0の環境を構築し、日本語検索が行えるように設定しました。 DebianにOpenJDK + Tomcat 7 + Solr 3.5.0 の環境を構築する Debian に Tomcat 7 + Apache Solr 3.5.0 + 日本語検索対応環境を構築(lucene-gosen使用) schema.xmlは、このようにid(long)、title(text_ja)、body(text_ja)の 3つのフィールドを持つように指定しています。 <?xml version="1.0" encoding="UTF-8" ?><schema name="example" version="1.4"> <types> <!-- The StrField type is not analyzed, but indexed/s
詳細は下を参考にしていただきたいのですが Nグラムは再現率が高いものの精度は低くなりがちです。 逆に形態素解析は再現率は低いものの精度は高くなります。 [Solr][Sen] 日本語形態素解析器Senを導入する その4 再現率が高いNグラム [Solr][Sen] 日本語形態素解析器Senを導入する その5 精度なら形態素解析 再現率と精度は相反する物なので 検索エンジン導入時には そのバランスをどの辺でとるのかっていうのが設計のポイントになります。 これは検索エンジンを利用するサービスの質にによって決定される物です。 電話帳検索のような再現率重視のサービスでは 確実に見つけることができるNグラムを使う方がよいでしょうし 膨大なドキュメントから人間が検索するような場合には ヒット件数が多すぎても読み切れないので 形態素解析を使ってで精度の高いドキュメントに絞った方がいいでしょう。 どちらか
検索エンジンの常識をApache Solrで身につける:ビッグデータ処理の常識をJavaで身につける(1)(2/4 ページ) 【2】言語同定器 検索エンジンで複数の言語からなる文書集合のインデックスを生成する際、入力文書の記述言語によって処理が異なることがあります。 例えば、日本語文書では単語の区切りがないため、トークナイザが文中に含まれる単語を確率的に推定して単語を切り出してあげる必要があります。一方で、英語の文は単語の区切りが自明であるため、トークナイザが行う処理はほとんどありません。このように、入力文書の記述言語が複数存在する状況では、入力文書の記述言語によって利用するトークナイザなどのコンポーネントを変更する必要があります。 上記のように入力言語によって処理内容を変えるためには、そもそも入力クエリや文書が、どの言語で記述されているのかを同定する必要があります。「言語同定器」というコ
solr(Lucene)のスコア計算を改めて調べました。 こちらが詳しく書かれています。 score(q, d) = coord(overlap, maxOverlap). queryNorm(q). Σ(tf(t in d). idf(t)^2. norm(t, d)) t in q というのが計算式です。 solrのリクエスト時にdebugQuery=onで実行して、こちらと見比べてみます。 テストデータをインポートして、”solr ipod”で検索、4件ヒットします。 例) http://localhost:8983/solr/select/?q=solr+ipod&version=2.2&start=0&rows=10&indent=on&debugQuery=on そのうち、1件目のスコア情報を見てみると、下記のような感じです。 0.2925402 = (MAT
What is Elasticsearch? Elasticsearch is REST based, distributed search engine powered by the excellent Lucene library. The built in JSON + HTTP API provides an elegant platform perfect for integrating with (ex: the elastic_searchable ruby gem). It’s simple, scalable and “cool, bonsai cool“. Why is it better than Solr? First of all, let’s set the record straight: Solr is fast. I’m serious…it’s rea
Intro Solr/Lucene 4.4, but also relevant for later versions Term indices live in memory. If you have a lot of documents and/or lots of indexed fields those term indices will require a lot of memory. But you can do something to limit it. Problem The term index is basically the .tip files in your Lucene index-folder. They live almost 1-to-1 in memory. A concrete case I have worked on Have an indexed
会社の人から「Apache Solr」というものを教えてもらったので、試しにCentOSにインストールしてみました。 「Apache Solr」とは? Solr は「ソーラ」と読むみたいです。Wikipedia によると 全文検索エンジンライブラリLuceneをベースに、管理画面やキャッシュ機構を取り入れたアプリケーション。 http://ja.wikipedia.org/wiki/Solr という全文検索系のエンジンみたいです。 とりあえずインストールしてみる なにはともあれ、まずはインストールをしてみます。 Java をインストール Solr は Java ベースのアプリケーションになるので、事前に Java をインストールしておきます。 ※大抵の場合、Java はインストール済みだと思うのでここはパスしても良いです。 $ yum install java $ java -versio
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く