タグ

全文検索に関するssm_kariyaのブックマーク (9)

  • postgresql/PostgreSQL8.4で全文検索を行う – memo

    PostgreSQL8.4で全文検索(textsearch-ja) 作成日 2010/09/15 特徴 形態素解析を使った全文検索機能。 文法的に整った文書を検索する場合に有効な方法である。 SQLのLIKE文に近い結果を得たい場合には適さない。 そのような用途の場合は、N-gramアルゴリズムを採用しているtextsearch_sennaを利用すると良い。 前置き 全文検索機能は、最近ではSolrが人気である。高速かつレプリケーション機能も付いておりスケールアウト(サーバを増やす事で性能を向上させる事)が可能である。 SolrはPostgreSQLとは独立した全文検索エンジンでJava+Tomcatで動作する(サーブレットなので、Tomcat以外でも動作する)。 しかしながら、それほど大きくない規模であればPostgreSQL上で全文検索機能を使えたほうが何かと便利である。 ここでは、P

  • textsearch_senna

    N-gram を使用した、組み込み型の日語全文検索です。 ダウンロード : ソースコードのほか、Windows 用バイナリもダウンロードできます。 バグレポート メーリングリスト への参加 概要 インストール テキスト検索機能 %% 演算子 @@ 演算子 インデックス (senna) インデックス・オプション (WITH) インデックスのメンテナンス senna.drop_index() senna.reindex_index() 不要ファイルの調査 TODO 概要 日語テキストの全文検索を行います。 形態素解析ベースである textsearch-ja とは異なり、textsearch_senna では N-gram ベースの全文検索を行います。 検索には、全文検索エンジン Senna を使用しています。 利点として、文字すべてをインデックス化するため LIKE 中間一致検索に近い結果

  • 高速全文検索エンジンSenna 1.0.0 リリース - IT革命~

    情報技術(アイティー)革命ではなくイット革命!IT化推進に役立つソフトウェアやWeb制作に関するネタを扱います。 高速全文検索エンジンSenna 1.0.0 がリリースされました。 組み込み型全文検索エンジンSenna はご存知ですか? プレスリリース文を引用しながら紹介します。 ■高速全文検索エンジンSenna 1.0.0 リリースのお知らせ 有限会社未来検索ブラジル(東京都渋谷区 代表取締役:深水英一郎)が組み込 み型全文検索エンジン「Senna(せな)」のメジャーリリース版(1.0.0)を公開しま したのでお知らせいたします。 ●Sennaについて Sennaはオープンソースの組み込み型の全文検索エンジンです。DBMSやスクリプ ト言語処理系等に組み込むことによって、その全文検索機能を強化することがで きます。従来より先進的なITベンチャーを中心に数多くの商用サイト・製品に 採用され

  • [ThinkIT] 第1回:蓄積したデータを徹底活用〜全文検索 (1/3)

    現在では、商品の詳細な解説や購買者からの感想、顧客からのクレームや問い合わせ内容とその回答など、様々な情報が企業のデータベースに蓄積されています。ショッピングサイトの訪問者やコールセンターのオペレータは、これらの膨大なテキストデータから迅速に求めるデータを抽出したいと望んでいます。そして、この際に必要となるのが連載でとりあげる全文検索です。 連載では、全文検索を実現するソフトウェアのなかでもオープンソースである「Ludia」に焦点をあてて、全文検索の技術そのものからその導入ポイントまでを解説していきます。なおLudiaは、オープンソースRDBMSとして著名なPostgreSQLに対して高度な日語全文検索を実現するため、NTTデータが開発し、オープンソースとして公開しています。 ほとんどのインターネット利用者にとって、「検索」は日々利用する当たり前のサービスとなっています。ここで用いら

  • http://www.rondhuit-demo.com/lbs2demo/search/index

  • [Think IT] 第1回:OSS検索エンジンLuceneとは (1/3)

    「JBoss Enterprise Application Platformの全貌」では全4回にわたって、JBoss Enterprise Middleware全般について解説している。 連載ではJBoss Enterprise Middlewareを使った具体例として「エンタープライズレベルの検索サービス」を提供するWebアプリケーションを取り上げ、試作する。なお、検索エンジンにはオープンソースソフトウェア(以下、OSS)のApache Lucene(以下、Lucene:ルシーン)を使用する。 ここで述べる「エンタープライズレベルの検索(注1)」サービスとは、企業が保有する大量のコンテンツを高速に検索するサービスのこととする。Luceneは小規模(文書数が数万件以下)から大規模(数百万件以上)のコンテンツを高速に検索することを得意としているため、「エンタープライズレベルの検索」に適して

  • Hibernate Searchって何だ?

    Hibernate Searchとは? 連載では、Hibernate Searchによる全文検索システムの構築について解説していく。 Hibernate Searchとは、JBoss Hibernateのフレームワークから透過的に全文検索の機能を利用できるようにしたJBoss Hibernateへのアドオン・コンポーネントである。「透過的」な全文検索機能へのアクセスにはJBoss HibernateのAPIとアノテーションを通じて行う。また、全文検索の機能は「JBoss EAP+Luceneによる全文検索システム」で紹介している「Lucene」の利用が前提となっているので注意してほしい。 筆者はHibernate Searchを使う理由には、2つの大きなメリットがあると考えている。 メリット1「RDBと検索エンジンのデータの同期」 「JBoss EAP+Luceneによる全文検索システム

  • [ThinkIT] 第4回:Ludiaを体験 (1/4)

    第3回では、オープンソースの全文検索システム「Ludia」を導入するための準備をすすめてきました。今回は、Ludiaに必要なソフトウェアいれ、実際に全文検索を行ってみます。 さて、前回解説したようにLudiaのダウンロードが終わっていたら、それをFedora Core 6にインストールしていきます。現在、Ludiaはtarballでの提供のみですので、ソースからコンパイルしていきます。インストールは、MeCab、MeCab辞書、Senna、Ludiaの順序で行います。それでは、順に説明していきます。

  • 全文検索サーバ: これからSolrを始める人のためのApache Solr概要と便利な情報リスト集

    はじめまして。 プロダクト&サービス事業部 リーダーの久保です。 今日は、当社で利用しているOSSの全文検索アプリケーションであるApache Solrについてご紹介したいと思います。 GoogleでSolrを検索しても、日語圏のコンテンツはまだまだ少ないようです。 当社がSolrを使い始めた昨年は現在よりもさらに少なく、結構苦労しました。 今回はやや雑多な内容となりますが、新しくSolrを使う際に必要と考えられる情報をまとめてみました。 エントリーでは、Solr1.3を対象としています。 Solr1.3が現在の安定版で、Solr1.4-devが開発版となります。 目次 Solrとは 機能一覧 実績/事例 Solrを使ったシステムの開発方法 おすすめする方 データ量/性能とハードウェア マルチコア構成 様々な検索 スケールアウト 検索と更新 Solrを始めるための情報リスト 全

  • 1