Algolia is in the 2024 Gartner® Magic Quadrant™ for Search and Product Discovery positioned furthest for Completeness of Vision. Learn more by downloading a copy of the report.
Today, we are pleased to announce that Twitter now indexes every public Tweet since 2006. Since that first simple Tweet over eight years ago, hundreds of billions of Tweets have captured everyday human experiences and major historical events. Our search engine excelled at surfacing breaking news and events in real time, and our search index infrastructure reflected this strong emphasis on recency.
前回のMilkodeでの事例紹介では、Rubyでrroongaを使ってソースコード検索エンジンを実装している事例を紹介しました。Milkodeは全文検索エンジンを組み込むことにより、大量のファイルに対しても高速な検索を実現しています。rroongaを使った代表的なアプリケーションの1つです。プログラマにとってとても便利なアプリケーションなので、ぜひ使ってみてください。 前回はユーザ視点からのrroongaの紹介でしたが、今回は違った角度から紹介します。rroongaの歴史、大事にしていることについて説明します。 自分のアプリケーションで利用するプロダクトを検討するときに、プロダクトがどのような方向で作られているかを考慮していますか? 自分のアプリケーションが大事にしたいことをそのプロダクトでも大事にしているなら、相性がよいかもしれません。さて、rroongaはあなたが大事にしたいことを大事
Sematextのブログにて連載された"Solr vs ElasticSearch"の翻訳。 現在、Part 6まで存在し、その全てを翻訳した。 Part 1 – 概観 Part 2 – インデックス作成と言語の取扱 Part 3 – 検索 Part 4 – Faceting Part 5 - 管理APIの機能 Part 6 – ユーザと開発者のコミュニティ比較 なお、オリジナルの記事はこちらのPart1から全て辿ることができる。 http://blog.sematext.com/2012/08/23/solr-vs-elasticsearch-part-1-overview/ この連載はまだ続くはずだがPart 7がいつ出るのかはわからない。また出た時に翻訳を続けられるかもわからない。 なお、訳者はSolrもElasticSearchも大した知識を持っていない。誤訳等見つけられたらぜひコ
“Solr or Elasticsearch?”…well, at least that is the common question we hear from Sematext’s consulting services clients and prospects. Which one is better, Solr or Elasticsearch? Which one is faster? Which one scales better? Which one is easier to manage? Which one should we use? Is there any advantage to migrating from Solr to Elasticsearch? – and the list goes on. These are all great questions,
実験結果を見ると,キャッシュヒット率が 90% を超えるくらいに調整したとき,キャッシュに含まれる索引語の割合は全体の 1% にも満たないことが分かります.つまり,空間効率の低いデータ構造をキャッシュとして採用したところで,索引語辞書のサイズにはほとんど影響しません.一方で,時間効率の高いデータ構造を採用すれば,索引構築にかかる時間を大幅に短縮できます. たとえば,キャッシュヒット率を 90% に調整すると,キャッシュが索引語 1 つあたりに必要とするサイズが本体のそれと比べて 5 倍でも,全体の 5% にも満たないということです.また,キャッシュの参照時間が本体の 1/5 になると仮定すれば,キャッシュミスしたときはキャッシュと本体の両方を参照することになるものの,1/5 x 90% + 6/5 * 10% = 30% にまで平均参照時間を短縮できることになります. 索引語辞書の構成はど
というわけで、途中からですが第5回Solr勉強会に参加しました。会場は#TokyoNLPと同じECナビさん。Solrは最近勢いのあるオープンソースの全文検索エンジンで、mecabを使ったりして日本語の検索にも対応しているようです。第5回Solr勉強会 : ATNDWelcome to Solr Tokenizer いろいろ比較 by @haruyamaさん (途中から) Igoという形態素解析器がある Ngram系 vs 形態素解析:Ngram系のほうが速い バージョン3.1.0 vs 1.4.1: ほとんど差はなし モテるSolr系女子力の(ry 本日をもってECナビを退社→転職先募集中! 図書館でのSolrの使い方 by @nabetaさん(田辺浩介) Project Next-LのはなしProject Next-L Official Page Next-L Enju: オープンソース
Nutch is a highly extensible, highly scalable, matured, production-ready Web crawler which enables fine grained configuration and accomodates a wide variety of data acquisition tasks. Scalable Relying on Apache Hadoop™ data structures, Nutch is great for batch processing large data volumes but can also be tailored to smaller jobs. Pluggable Out of the box Nutch offer powerful plugins i.e., parsing
全文検索エンジンLuceneをGoogle App Engine/Javaのslim3の上で動かしてみました。indexの作成には、N-gram を使っています。 準備 まずは、Luceneの最新版を取得します。今回は3.0.2を使用しました。 lib/lucene-core contrib/contrib/analyzers/common/lucene-analyzers-3.0.2 の二つのjarファイルをprojectの war/WEB-INF/lib にコピーし、build pathに追加します。 GAE特有の問題に対処 Luceneを使うだけであればjarをいれておけばよいのですが、GAE特有の問題がいくつかあります。 Indexの取り扱い Luceneはindexを保持し、このindexを元に文書を検索します。そのため、このindexをどこにどうやって保存するかが問題となります
全文検索システムの評価項目:精度 全文検索システムの比較には、さまざまな評価項目があります。ここではまず、その評価項目について解説していきます。 検索の精度は検索システムにとって最も重要な評価項目です。精度が低い検索システムでは、目的の文書を的確に見つけることができません。検索システムの精度としては、適合率と再現率という2つの数値がよく使われます。 適合率(Precision)とは、検索でヒットした文書のうち、正しく検索条件に当てはまる文書の割合です。この数値が1(100%)に近いほど、検索ノイズが少ない検索システムであるといえます。検索ノイズとは、検索条件に当てはまらないのに検索結果となってしまっている文書のことです。 再現率(Recall)とは、検索条件に当てはまるすべての文書のうち、検索でヒットした文書の割合です。この数値が1(100%)に近いほど、検索漏れが少ない検索システムである
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く