タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

Luceneに関するfumiyasのブックマーク (8)

  • 第3回solr勉強会(アメーバにおけるsolrの利用)

    Loading… Flash Player 9 (or above) is needed to view presentations. We have detected that you do not have it on your computer. To install it, go here. 第3回solr勉強会(アメーバにおけるsolrの利用) - Presentation Transcript 第3回 Solr勉強会 株式会社サイバーエージェント 新規開発局 安田 征弘 第3回 Solr勉強会 自己紹介 ・ 安田征弘(やすだ まさひろ) ・ 2008年からアメーバで働く ・ 今まで関わったサービス 2008年 ~ 2010年 - ブログネタ 2010年 ~ 2010年6月 - アメーバサーチ - なう検索 - タレント検索 現在の担当 - アメーバサーチの負荷改善及び機能追加

  • Dovecot と Apache Solr で受信したメールを全文検索: 日誌

    はじめに みんな大好き Gmail は検索機能が強力であり、これが理由で Gmail を使っている人も少なくないと思います。しかし、家訓などで Gmail を禁止されている人もいることでしょう。たとえば、自前サーバーに Dovecot をインストールして使っているとか。しかし、Dovecot 標準のままだと検索がちょっと悲しいので、ちょっとだけ強くしてみます。 Dovecot はプラグイン機能で機能強化できますが、そのうちの一つ、fts (Full Text Search indexing) というプラグインを使うと、全文検索が強まります。fts はインデクサとしていくつかのプログラムを選択できますが、ここでは fts_solr 経由で、Apache Solr を使ってみることにします。なお、環境は Ubuntu Precise (12.04.1 LTS) です。 Solr をインストール

    Dovecot と Apache Solr で受信したメールを全文検索: 日誌
  • Rosette for Solr - Solr Name Search - Rosette Text Analytics

    Smart Indexing for Brilliant Search Enhancing Solr with AI-Powered Text Analytics Apache Solr is at the heart of many innovative search-based applications. With Rosette’s advanced natural language processing (NLP) technology, you can power your existing Solr applications up with artificial intelligence. Request a Demo ● Document Tagging ● Multi-Faceted index enrichment for data discovery Rosette e

    Rosette for Solr - Solr Name Search - Rosette Text Analytics
  • Lucene/SolrのCJKAnalyzerをカスタマイズして遊んでみる

    概要 全文検索エンジンとして有名なLucene/Solr。 この子を使って日語文書のインデックスを作成したい場合、形態素解析かNgramを用いるのが一般的。 Ngramを選択した場合に良く利用されるのがCJKAnalyzer。日語や英語なんかが混ざった文章を解析する時にはそこそこに便利。 ただ、その仕様や作成されるインデックスのサイズが必ずしも要件に合うとは限らない。これを自前で改変できるようになれば、用途に合った、よりコンパクトなインデックスが作成されるんじゃないだろうか。 そんなことを思ったので、気の向くままに「1文字をインデックスに入れない」とか「カタカナはBi-gramでなくまとめて登録する」とか「顔文字の検索を考慮する」などを試してみた。

  • LuceneのIndexファイルに関するメモ書き | mwSoft

    概要 LuceneとかSolrを使っている時に、インデックスファイルを見て状況を把握すると手っ取り早いケースなんかがたまにあります。 そうした時に適切な判断ができるように、小規模なインデックスファイルを目視で確認して、それらがどういったファイルなのか軽く確認してみた。 さらっと見ただけのメモ書きなので、適当なことを書いている可能性があります。 出力コード 例として「content」というフィールドを持つ2つのドキュメントを登録してみます。登録した文字列は以下の2つ。 i have a dream it is a dream deeply このマーチン・ルーサー・キングには夢がある。 下記のようなコードでインデックスを生成。 IndexWriterConfig conf = new IndexWriterConfig(Version.LUCENE_36, new WhitespaceAnal

  • Lucene gosenの紹介 solr勉強会第7回

    株式会社オルターブース Chief Technical Architect 松村 優大 Microsoft MVP for Developer Technologies 亀川 和史 2021年11月に .NET 6 がリリースされました。 .NET 6以降、毎年メジャーバージョンアップが行われ、 .NET 開発者にはアプリケーションライフサイクルの素早さが求められてきます。 .NET Framework を維持するのか、.NET 6に移行するのか、アプリケーション開発に関わる方が取り組むべき課題に対してDevOpsプラクティス使って解決しましょう。

    Lucene gosenの紹介 solr勉強会第7回
  • Topic Extractor - Topic Extraction from Text - Rosette Text Analytics

    /topics endpoint {"content": "To Sleep John Keats, 1795 - 1821 O soft embalmer of the still midnight! Shutting with careful fingers and benign Our gloom-pleased eyes, embower’d from the light, Enshaded in forgetfulness divine; O soothest Sleep! if so it please thee, close, In midst of this thine hymn, my willing eyes, Or wait the amen, ere thy poppy throws Around my bed its lulling charities; Then

    Topic Extractor - Topic Extraction from Text - Rosette Text Analytics
  • Hadoopでテキストを扱う際にLuceneのTokenizerで単語分割してみる | mwSoft

    概要 Luceneは3.6から形態素解析機能も入って日語文書が手軽に扱えるようになった。 Hadoopを使う際にこれらの機能を利用すれば何かと便利なんではなかろうかと思ったので、サンプルコードを書いてみた。 英語文書を扱ってみる 英語文書を単語に分割してカウントする処理を書いてみる。 下記はStandardTokenizerでsplitし、小文字で統一するLowerCaseFilter、「a, and, is, to」などの頻出文字列を取り除くStopFilter、単語末尾の「's」を取り除くEnglishPossessiveFilter、複数形などの揺れを統一するKStemFilterなどをかけてWordCountを行っている。 public class EnWordCountMapper extends Mapper<LongWritable, Text, Text, LongWri

  • 1