タグ

2017年6月22日のブックマーク (2件)

  • 【N-gram】全文検索エンジン Apache Solrを使ってみた – FiS Project

    2013年に読んだが188冊でした。ハードカバー以外のは全て裁断してスキャナでPDF化する所謂、自炊をしています。 来年の目標のひとつはOCR化して全文検索エンジンでこれらをIndexingしてキーワードで全文検索できるようにすること。 D社が開発している世界最速の非破壊ブックスキャナだけど、高速カメラによる判定と歪んだ画像の補正はできる気がするけど一枚一枚を高速でメクる制御とその精度がとても大変そう。 ちなみにiOS7のメモ帳は全文検索できて便利! UIは前の方が好きだけど。 Apache Solrとは何か 説明不要かもしれないですがApacheSolrは全文検索エンジンです。 2006年にCNETからApacheに寄贈しOSSとして公開されています。GoogleのようなWEB検索以外の検索ニーズ(企業サイト内検索など)で使われています。SolrはJavaで書かれており、WebAPI

  • Ride(らいど)の技術メモ solr schema.xml (1文字の日本語検索が CJKAnalyzer では駄目だった)

    CJKAnalizerでは「花」の1文字の検索を行うと、検索出来ない不具合が見つかった。 その他に検索できない日語が色々出てきたので、CJKAnalizerには身を引いてもらいます。 んで、色々試したのですがどれも一長一短すぎ、使い物にならないので、 N-Gramを使用することにしました。 N-Gram を 1-gram で使用した場合、語句に関係無く文字が一致するとヒットしてしまうので、検索ワードが2文字以上の場合は 2-gram を使用する方針としました。 データ上に検索キーワードが存在するのに CJKAnalizer ではヒットしない場合があるなんて、信じられない!。 solrを使用している事例は日語のページでも見ますが、こういう事が明らかにされていないのは非常に不親切ではないでしょか?? 実際solrの問い合わせパラメータを日語で説明しているサイトも無いし、オープンソースなん