After many years running its own in-house C++ search engine, Amazon is exploring moving its customer facing e-commerce product search to Apache Lucene (tm), serving millions of customers each day worldwide. Solr, Elasticsearch and other Lucene derivatives have been used widely for many years at Amazon, but until now the .com product search has been powered by a proprietary in-house engine. We'll d
2021年度リクルート エンジニアコース新人研修の講義資料です
はじめまして、 @mocobetaと申します。 パッケージソフトウェアベンダー、コンサルティング会社、Webサービス企業などを経て、現在は株式会社LegalForceというスタートアップの研究開発セクションでソフトウェアエンジニアをしています。 個人としては、Python形態素解析ライブラリjanomeを開発するとともに、OSS検索エンジンライブラリApache Luceneのコミッターをしています。ちなみに本記事のアイキャッチ画像は、絵師さんに描いてもらったjanomeのキャラクターです。とてもかわいく描いていただいて、お気に入りの1枚です。 この記事では、進路とエンジニアとしての力不足に悩んでいた私の若手時代から、10年(以上)の模索期間を経て、ライフワークにしたいと思える技術に出会い、なんとか好きな仕事で食べていけるようになるまでを振り返ります。アップダウンの激しいIT業界において、
LIRE: Lucene Image Retrieval LIRE is a Java library that provides a simple way to retrieve images and photos based on color and texture characteristics. LIRE creates a Lucene index of image features for content based image retrieval (CBIR) using local and global state-of-the-art methods. Easy to use methods for searching the index and result browsing are provided. Best of all: it's all open source
入力と出力のペアに対して,上のようなグラフを作るのが目標です.テーブルの出力のとこは数字が書いてありますが,文字列だと思ってとらえて下さい.map だと出力は1つに限られちゃいますが,ひとつの入力に対して出力が複数あってもいいです.たとえば入力 "feb" に対して,出力は "28" と "29" があります.(2月は28日と29日のときがありますね). ノードの部分が状態で,そこから出ている矢印が状態遷移になります.矢印には a/b というラベルがついていますが,a の部分が入力とのマッチを意味し,b の部分がそのときの出力を意味します. 上の例で示すFSTで,"aug"を処理するには,"aug"を頭から読んで,入力"a"に対応するの(9)から(3)への矢印を選択します.そのとき,出力として"3"を記録しておきます.そのあと,"u"に対して(3)から(2)への矢印を選択し,"1"を先ほど
最近読んでいたSolrやElasticsearch関連の本で、ちょっと気になっていたクエリで遊んでみました。Luceneで。 気になっていたクエリとは、 FuzzyQuery MoreLikeThisQuery です。 FuzzyQueryはあいまい検索、MoreLikeThisは似たドキュメントを取得するためのクエリです。 まあ、使っていってみましょう。 準備 とりあえず、依存関係の定義を。 build.sbt name := "lucene-fuzzy-more-like-this" version := "0.0.1-SNAPSHOT" scalaVersion := "2.11.0" organization := "org.littlewings" scalacOptions ++= Seq("-Xlint", "-deprecation", "-unchecked", "-fe
Here at Yieldbot we do a lot of text processing of analytics data. In order to accomplish this in a reasonable amount of time, we use Cascalog, a data processing and querying library for Hadoop; written in Clojure. Since Cascalog is Clojure, you can develop and test queries right inside of the Clojure REPL. This allows you to iteratively develop processing workflows with extreme speed. Because Cas
Using the Apache Lucene library we can add freetext search to HBase. The advantages of this are: HBase is highly scalable and distributed HBase is realtime Lucene is a fast inverted index and will soon be realtime (see LUCENE-2312) Lucene offers many types of queries not currently available in HBase (eg, AND, OR, NOT, phrase, etc) It's easier to build scalable realtime systems on top of already ar
KEYNOTE: From Publisher To Platform: How The Guardian Embraced the Internet using Content, Search, and Open Source Presented by Stephen Dunn | Guardian News and Media UK In 2009 The Guardian launched The Open Platform, a suite of services and tools that enable content partners and developers to build applications with The Guardian's rich content. The content API, hosted on Solr instances on EC2,
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く