[B! lucene] nihohiのブックマーク

PostgreSQLとNeo4Jがクラウドへの道を歩み始めた

Rustが再評価される：エコシステムの現状と落とし穴 In this article, we share findings and insights about the Rust community and ecosystem and elaborate on the peculiarities and pitfalls of starting new projects with Rust or migrating to Rust from othe...

nihohi 2012/05/18

リンク

RONDHUIT-REPORT-Vol8

RONDHUIT REPORT Vol.8 – LUCENE SCORING TIPS & TRICKS Copyright © RONDHUIT Co.,Ltd. 1 2011 3 24 Lucene Solr Lucene Similarity Similarity Javadoc Lucene 2.9 Similarity Javadoc http://lucene.apache.org/java/2_9_4/api/all/ org/apache/lucene/search/Similarity.html https://issues.apache.org/jira/browse/LUCEN E-1908 Lucene Excel Excel V V(q) V(d) (cos ) 2 2 2 V(q) V(d) |V(q)||V(d)| Excel RONDHUIT REPORT

nihohi 2012/03/28

solr
lucene

リンク

ダウンロード - 株式会社ロンウイット

無料のオンラインハンズオンセミナーを開催しています詳細・お申し込みはこちら目次 Apache OpenNLP 日本語固有表現抽出モデルファイル livedoor ニュースコーパス勉強会／セミナー資料海外カンファレンス参加報告セキュリティ警告アーカイブズ Apache OpenNLP 日本語固有表現抽出モデルファイル Apache OpenNLP 1.9.0 以降で利用可能な、日本語固有表現抽出のための学習済みのモデルファイルです。商用利用可能です。ダウンロード：rondhuit-ja-ner-1.0.0.zip（Apache License） livedoor ニュースコーパス概要本コーパスは、NHN Japan株式会社が運営する「livedoor ニュース」のうち、下記のクリエイティブ・コモンズライセンスが適用されるニュース記事を収集し、可能な限りHTMLタグを取り除い

nihohi 2012/03/28

white paperあり。RONDHUIT REPORT Vol.8 「Excelで学ぶ！Luceneのスコア計算」（全3ページ）

solr
lucene

リンク

Google Code Archive - Long-term storage for Google Code Project Hosting.

Code Archive Skip to content Google About Google Privacy Terms

nihohi 2012/03/28

solr
lucene

リンク

Apache Solr 3.5.0にPythonからデータの登録・検索を行う(solrpy使用)

DebianにTomcat 7 + Apache Solr 3.5.0の環境を構築し、日本語検索が行えるように設定しました。 DebianにOpenJDK + Tomcat 7 + Solr 3.5.0 の環境を構築する Debian に Tomcat 7 + Apache Solr 3.5.0 + 日本語検索対応環境を構築(lucene-gosen使用) schema.xmlは、このようにid(long)、title(text_ja)、body(text_ja)の 3つのフィールドを持つように指定しています。 <?xml version="1.0" encoding="UTF-8" ?><schema name="example" version="1.4"> <types> <!-- The StrField type is not analyzed, but indexed/s

nihohi 2012/03/28

lucene
solr

リンク

日本語形態素解析器Senを導入するその6 Nグラムと形態素解析には一長一短あり。目的に応じて使い分けよう - Solr, Python, MacBook Air in Shinagawa Seaside

詳細は下を参考にしていただきたいのですが Nグラムは再現率が高いものの精度は低くなりがちです。逆に形態素解析は再現率は低いものの精度は高くなります。 [Solr][Sen] 日本語形態素解析器Senを導入するその4 再現率が高いNグラム [Solr][Sen] 日本語形態素解析器Senを導入するその5 精度なら形態素解析再現率と精度は相反する物なので検索エンジン導入時にはそのバランスをどの辺でとるのかっていうのが設計のポイントになります。これは検索エンジンを利用するサービスの質にによって決定される物です。電話帳検索のような再現率重視のサービスでは確実に見つけることができるNグラムを使う方がよいでしょうし膨大なドキュメントから人間が検索するような場合にはヒット件数が多すぎても読み切れないので形態素解析を使ってで精度の高いドキュメントに絞った方がいいでしょう。どちらか

nihohi 2012/03/27

lucene
solr

リンク

Similarity (Lucene 3.5.0 API)

nihohi 2012/03/19

スコア検索について

lucene
solr

リンク

Luceneスコアリングの大雑把な説明 | 関口宏司のLuceneブログ

一定期間更新がないため広告を表示しています

nihohi 2012/03/19

スコアについて概要

リンク

検索エンジンの常識をApache Solrで身につける

検索エンジンの常識をApache Solrで身につける：ビッグデータ処理の常識をJavaで身につける（1）（2/4 ページ）【2】言語同定器検索エンジンで複数の言語からなる文書集合のインデックスを生成する際、入力文書の記述言語によって処理が異なることがあります。例えば、日本語文書では単語の区切りがないため、トークナイザが文中に含まれる単語を確率的に推定して単語を切り出してあげる必要があります。一方で、英語の文は単語の区切りが自明であるため、トークナイザが行う処理はほとんどありません。このように、入力文書の記述言語が複数存在する状況では、入力文書の記述言語によって利用するトークナイザなどのコンポーネントを変更する必要があります。上記のように入力言語によって処理内容を変えるためには、そもそも入力クエリや文書が、どの言語で記述されているのかを同定する必要があります。「言語同定器」というコ

nihohi 2012/03/19

リンク

IBM Developer

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

nihohi 2012/03/19

indexingのパフォーマンス係数などについて

solr
lucene

リンク

IBM Developer

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

nihohi 2012/03/19

わかりやすい。solrのindexingの基本的な仕組みなど。

lucene
solr

リンク

solrのスコア計算 | mono-blog

solr（Lucene）のスコア計算を改めて調べました。こちらが詳しく書かれています。 score(q, d) = coord(overlap, maxOverlap). queryNorm(q). Σ(tf(t in d). idf(t)＾2. norm(t, d)) t in q というのが計算式です。 solrのリクエスト時にdebugQuery=onで実行して、こちらと見比べてみます。テストデータをインポートして、”solr ipod”で検索、4件ヒットします。例） http://localhost:8983/solr/select/?q=solr+ipod&version=2.2&start=0&rows=10&indent=on&debugQuery=on そのうち、1件目のスコア情報を見てみると、下記のような感じです。 0.2925402 = (MAT

nihohi 2012/03/18

solrのscore計算

solr
lucene

リンク

GitHub - elastic/elasticsearch: Free and Open, Distributed, RESTful Search Engine

You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert

nihohi 2012/03/15

リンク

Elasticsearch Platform — Find real-time answers at scale

nihohi 2012/03/15

リンク

Realtime Search: Solr vs Elasticsearch | Socialcast Engineering

What is Elasticsearch? Elasticsearch is REST based, distributed search engine powered by the excellent Lucene library. The built in JSON + HTTP API provides an elegant platform perfect for integrating with (ex: the elastic_searchable ruby gem). It’s simple, scala ble and “cool, bonsai cool“. Why is it better than Solr? First of all, let’s set the record straight: Solr is fast. I’m serious…it’s rea

nihohi 2012/03/15

　index作成中に、elastic searchだと速度落ちないが、solrだとおちるとか。 Solr’s architecture was not built for realtime search applications

リンク

IBM Developer

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

nihohi 2012/03/06

プラグインについて

solr
lucene

リンク

Solr/Lucene

Intro Solr/Lucene 4.4, but also relevant for later versions Term indices live in memory. If you have a lot of documents and/or lots of indexed fields those term indices will require a lot of memory. But you can do something to limit it. Probl em The term index is basically the .tip files in your Lucene index-folder. They live almost 1-to-1 in memory. A concrete case I have worked on Have an indexed

nihohi 2012/03/06

schema.xmlとか。分散検索可能とか。

リンク

DebianにOpenJDK + Tomcat 7 + Solr 3.5.0 の環境を構築する

以前、DebianにSolrの環境を構築しました。 Debian に Tomcat + Apache Solrの環境を構築あれから二年経過し、ソフトウェアのバージョンが上がってます。 Tomcatは6から7 Solrは1.3.0から3.5.0 改めて、インストールを行い手順を確認したのでメモしておきます。 ※2012/11/18追記 Solr 4.0のインストールを試してみました。 DebianにOpenJDK + Tomcat 7 + Solr 4.0 の環境を構築する http://symfoware.blog68.fc2.com/blog-entry-1032.html

nihohi 2012/03/06

solr
lucene

リンク

Apache Solrをインストールしてみる - hogehoge foobar Blog Style Beta

会社の人から「Apache Solr」というものを教えてもらったので、試しにCentOSにインストールしてみました。「Apache Solr」とは？ Solr は「ソーラ」と読むみたいです。Wikipedia によると全文検索エンジンライブラリLuceneをベースに、管理画面やキャッシュ機構を取り入れたアプリケーション。 http://ja.wikipedia.org/wiki/Solr という全文検索系のエンジンみたいです。とりあえずインストールしてみるなにはともあれ、まずはインストールをしてみます。 Java をインストール Solr は Java ベースのアプリケーションになるので、事前に Java をインストールしておきます。 ※大抵の場合、Java はインストール済みだと思うのでここはパスしても良いです。 $ yum install java $ java -versio

nihohi 2012/03/06

Solr
lucene

リンク

はてなブックマーク

タグ

関連タグで絞り込む (7)

luceneに関するnihohiのブックマーク (19)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス