[B! Lucene] fumiyasのブックマーク

第3回solr勉強会(アメーバにおけるsolrの利用)

Loading… Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here. 第3回solr勉強会(アメーバにおけるsolrの利用) - Presentation Transcript 第3回 Solr勉強会株式会社サイバーエージェント新規開発局安田征弘第3回 Solr勉強会自己紹介・安田征弘（やすだまさひろ）・ 2008年からアメーバで働く・今まで関わったサービス 2008年～ 2010年 - ブログネタ 2010年～ 2010年6月 - アメーバサーチ - なう検索 - タレント検索現在の担当 - アメーバサーチの負荷改善及び機能追加

fumiyas 2013/10/07

Lucene
Solr

リンク

Dovecot と Apache Solr で受信したメールを全文検索: 日誌

はじめにみんな大好き Gmail は検索機能が強力であり、これが理由で Gmail を使っている人も少なくないと思います。しかし、家訓などで Gmail を禁止されている人もいることでしょう。たとえば、自前サーバーに Dovecot をインストールして使っているとか。しかし、Dovecot 標準のままだと検索がちょっと悲しいので、ちょっとだけ強くしてみます。 Dovecot はプラグイン機能で機能強化できますが、そのうちの一つ、fts (Full Text Search indexing) というプラグインを使うと、全文検索が強まります。fts はインデクサとしていくつかのプログラムを選択できますが、ここでは fts_solr 経由で、Apache Solr を使ってみることにします。なお、環境は Ubuntu Precise (12.04.1 LTS) です。 Solr をインストール

fumiyas 2013/10/07

リンク

Rosette for Solr - Solr Name Search - Rosette Text Analytics

Smart Indexing for Brilliant Search Enhancing Solr with AI-Powered Text Analytics Apache Solr is at the heart of many innovative search-based applications. With Rosette’s advanced natural language processing (NLP) techno logy, you can power your existing Solr applications up with artificial intelligence. Request a Demo ● Document Tagging ● Multi-Faceted index enrichment for data discovery Rosette e

fumiyas 2013/10/07

Lucene

リンク

Lucene/SolrのCJKAnalyzerをカスタマイズして遊んでみる

概要全文検索エンジンとして有名なLucene/Solr。この子を使って日本語文書のインデックスを作成したい場合、形態素解析かNgramを用いるのが一般的。 Ngramを選択した場合に良く利用されるのがCJKAnalyzer。日本語や英語なんかが混ざった文章を解析する時にはそこそこに便利。ただ、その仕様や作成されるインデックスのサイズが必ずしも要件に合うとは限らない。これを自前で改変できるようになれば、用途に合った、よりコンパクトなインデックスが作成されるんじゃないだろうか。そんなことを思ったので、気の向くままに「1文字をインデックスに入れない」とか「カタカナはBi-gramでなくまとめて登録する」とか「顔文字の検索を考慮する」などを試してみた。

fumiyas 2013/10/07

Lucene

リンク

LuceneのIndexファイルに関するメモ書き | mwSoft

概要 LuceneとかSolrを使っている時に、インデックスファイルを見て状況を把握すると手っ取り早いケースなんかがたまにあります。そうした時に適切な判断ができるように、小規模なインデックスファイルを目視で確認して、それらがどういったファイルなのか軽く確認してみた。さらっと見ただけのメモ書きなので、適当なことを書いている可能性があります。出力コード例として「content」というフィールドを持つ2つのドキュメントを登録してみます。登録した文字列は以下の2つ。 i have a dream it is a dream deeply このマーチン・ルーサー・キングには夢がある。下記のようなコードでインデックスを生成。 IndexWriterConfig conf = new IndexWriterConfig(Version.LUCENE_36, new WhitespaceAnal

fumiyas 2013/10/07

Lucene

リンク

Lucene gosenの紹介 solr勉強会第7回

2. u  所属：㈱シーマーク u  氏名：大谷　純 u  twitter:@johtani u  ブログ: http://johtani.jugem.jp u  「Apache Solr入門」の著者の一人 u  lucene-gosenのcommitter

fumiyas 2013/09/30

Lucene

リンク

Topic Extractor - Topic Extraction from Text - Rosette Text Analytics

/topics endpoint {"content": "To Sleep John Keats, 1795 - 1821 O soft embalmer of the still midnight! Shutting with careful fingers and benign Our gloom-pleased eyes, embower’d from the light, Enshaded in forgetfulness divine; O soothest Sleep! if so it please thee, close, In midst of this thine hymn, my willing eyes, Or wait the amen, ere thy poppy throws Around my bed its lulling charities; Then

fumiyas 2013/09/30

Lucene

リンク

Hadoopでテキストを扱う際にLuceneのTokenizerで単語分割してみる | mwSoft

概要 Luceneは3.6から形態素解析機能も入って日本語文書が手軽に扱えるようになった。 Hadoopを使う際にこれらの機能を利用すれば何かと便利なんではなかろうかと思ったので、サンプルコードを書いてみた。英語文書を扱ってみる英語文書を単語に分割してカウントする処理を書いてみる。下記はStandardTokenizerでsplitし、小文字で統一するLowerCaseFilter、「a, and, is, to」などの頻出文字列を取り除くStopFilter、単語末尾の「's」を取り除くEnglishPossessiveFilter、複数形などの揺れを統一するKStemFilterなどをかけてWordCountを行っている。 public class EnWordCountMapper extends Mapper<LongWritable, Text, Text, LongWri

fumiyas 2013/09/13

Lucene

リンク

はてなブックマーク

タグ

関連タグで絞り込む (2)

Luceneに関するfumiyasのブックマーク (8)

お知らせ

今週のはてなブックマーク数ランキング（2024年11月第1週）

月間はてなブックマーク数ランキング（2024年10月）

今週のはてなブックマーク数ランキング（2024年10月第4週）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス