タグ

全文検索に関するcalcsのブックマーク (4)

  • MySQLでネットショップの詳細検索にインデックスを活用しまくる方法(前編)

    こんにちは。もとやんです。 DBAとしてのネタもたまには書きたい! ということで、MySQLのインデックスをフルに使って、ネットショップや、べログやぐるなびなどの検索サイトによくある詳細検索を高速に行うための、SQLのクエリの高速化手法と言うか、テーブル設計を今回は紹介します。 あまりネットのブログとかでは見かけないノウハウだと思うので、ショッピングカートやグルメサイトのシステムを書こうとする人にとっては参考になるんじゃないでしょうか。 とはいえ、これは私が必要に応じて数年前に頭を捻って考えたものなので、もっと高効率に書けるよ!という方がおられれば、ぜひ教えて下さい。 今回扱うような検索にはSolr(Lucene)などが実は向いていたりするんですが、新しいストレージを作ると監視対象は増えるわ、そもそも普段の運用ノウハウ(チューニングや、クラッシュ時のリカバースキル、バックアップ方法など)

    MySQLでネットショップの詳細検索にインデックスを活用しまくる方法(前編)
  • 中学生にもわかるウェーブレット行列 - アスペ日記

    id:echizen_tm さんの記事「ウェーブレット木の効率的で簡単な実装 "The Wavelet Matrix"」から始まったウェーブレット行列ブームから半年以上が過ぎ、すでに枯れた技術として確立されつつある感があります。 …嘘です。 日以外ではあんまり来ていません。 理由としては、やはりアルファベット圏では単語境界が明確であるため、こちらの記事で書かれているような「キーワード分割の難易度」といったことがあまり問題にならないということがあるかもしれません。 まあ、そういうわけで局所的に来ているウェーブレット行列ですが、日語をはじめとする単語境界のない言語圏にとっては重要なネタであると思うため、解説記事を書き直して*1みようと思います。 ウェーブレット行列でできること 主となる操作は、文字列に対する 定数時間の rank() と select()*2 です。 rank() は、「文

  • Apache Solr を利用した検索パッケージ Anuenue - mixi engineer blog

    研究開発グループの takahi-i です。 先日名前だけご紹介したAnuenue というツールをご紹介させていただきます。Anuenue は Apache Solr のラッパーであり、検索クラスタの構築と運用を容易にする目的で制作されました。 稿では始めに Apache Solr を選択した理由について述べ、その後、このツールを開発した背景とその目的をご紹介させていただきます。後半では実際に Anuenue を用いて検索クラスタを立ち上げます。 なぜ Apache Solr を採用したのか 昨年の秋、弊社の検索エンジンを置き換えるという計画が社内で策定され、ベースとなる検索エンジンの選定のために多くの OSS 検索エンジンを比較検討しました。このとき重視したのは一台の検索パフォーマンスと同時に、保守の容易さと、開発コミュニティの規模です。 検索エンジンの保守性に関して特に重要と考えたの

    Apache Solr を利用した検索パッケージ Anuenue - mixi engineer blog
  • livedoor Techブログ : Hyper Estraier で検索

    はじめまして。ライブドアの山です。 弊社は最近 CGMコンテンツに注力しています。 データがたまってくると、ユーザーが必要な情報をすばやく得られるように検索機能を実装する必要がでてきます。 各コンテンツそれぞれで検索機能を実装しているのですが、mysql から直接引いたり、Namazu や SUFARY などの検索エンジンもかなり使ったりしています。 今回は某コンテンツの検索エンジンとして使用している HyperEstraier のちょっとした導入方法をご紹介します。 HyperEstraier は平林幹雄さんが開発された検索エンジンで、次のような特徴があります。 * インデックスを使った高速な検索ができます。 * 大量の文書のインデックスを短時間で作成できます。 * N-gram方式による漏れのない検索ができます。 * 形態素解析とN-gramのハイブリッド機構で検索精度を向上させます

  • 1