タグ

全文検索に関するbigwestのブックマーク (26)

  • Amazon RDS for MySQL と全文検索 | DevelopersIO

    こんにちは、藤です。 先日開催された Developers.IO 2017 で「Amazon Elasticsearch Service の使いドコロ」というタイトルで登壇しました。 Developers.IO 2017セッション「Amazon Elasticsearch Service の使いドコロ」で話しました #cmdevio2017 資料を作成する中で MySQL 5.7 から追加された全文検索の日語対応に関して調べました。せっかくなのでまとめた内容をブログに書き出すとともに、RDS だとどこまでできるのかということを追加調査してみました。 MySQL 5.7 の日語全文検索に関しては公式ドキュメントや、Oracle の方のスライドに詳しく説明されていますので、詳しく知りたい方は下記をご参照ください。 12.9 Full-Text Search Functions MySQL

    Amazon RDS for MySQL と全文検索 | DevelopersIO
  • Amazon Elasticsearch Serviceで始める 全文検索 入門 | DevelopersIO

    語で全文検索できるようにする 次にElasticsearch で日語で全文検索するためのkuromojiプラグインを有効にします。以下のコマンドのEndpointとIndex名の部分を書き換えて実行して下さい。EndpointはManagement Consoleに表示されているものです。Index名は何でもいいです。今回はdiaryにしています。最後の行は実行結果なので最後から2行目までをコピーして実行してみてください。EndpointはManagement Consoleを確認してください。 $ curl -XPOST 'http://search-full-text-search-sample-xxxxxxxxxx.ap-northeast-1.es.amazonaws.com/diary/' -d ' { "index":{ "analysis":{ "tokenizer"

    Amazon Elasticsearch Serviceで始める 全文検索 入門 | DevelopersIO
  • MySQL 5.7.6のInnoDB日本語全文検索 ngram

    日々の覚書: プレビュー "MySQL 5.7.6のInnoDB語全文検索 MeCab Plugin" に引き続き、今度はngramなトークナイザー。ドキュメントは ここ 。 MeCab Pluginと違って特にINSTALL PLUGINとかせずに即使える。 mysql> ALTER TABLE articles ADD FULLTEXT KEY (title, content) WITH PARSER ngram; Query OK, 0 rows affected (6 hours 25 min 20.67 sec) Records: 0 Duplicates: 0 Warnings: 0 ( д ) ゚ ゚ 6時間半!? しょうがないとはいえ、MeCabのときは1時間半でお釣りが来てたのにと思うとちょっとしょんぼり。 時間もさることながら、このやり方(データをインポートしてから

  • MySQL 5.7.6のInnoDB日本語全文検索 MeCab Plugin

    MySQL :: MySQL 5.7 Reference Manual :: 12.9.9 InnoDB MeCab Full-Text Parser Plugin の内容のおさらい。 まず、基的なライブラリーと辞書は(この記事を書いている時点では).tar.gzバイナリーに同梱されているっぽいのでそちらを使う。Oracle公式のyumリポジトリー からインストールできるrpmには含まれていないように見えるので、その場合は別途突っ込まないといけないはずだけど、libpluginmecab.soが何かにダイナミックリンクしているわけではないので、辞書だけ取ってきてmecabrcに設定すればいけるような気がする。詳しく調べてない。 この環境はバイナリーの.tar.gzを取ってきて、/usr/local/mysqlに展開したとして、 $ ll /usr/local/mysql/lib/plug

  • いろいろ考えると日本語の全文検索もMySQLがいいね! - Kouhei Sutou - Rabbit Slide Show

    Description MySQLは広く使われているRDBMSです。速いし、レプリケーションのノウハウもあるし、Web上にたくさんの情報もあるからいざというときも安心、というのがその理由でしょう。 そんなMySQLの弱点の1つがデフォルトでは日語で全文検索できないことです。でも、日語で全文検索したいし。。。どうしよう。 そんなあなたに最近の日語の全文検索事情を紹介します。Solr?Elasticsearch?Groonga?PostgreSQLはどうやっているの?Mroonga?Sphinx? いろいろ考えると日語で全文検索するときもMySQLを使うのがいいね!と思えてくるから不思議です。最近の日語の全文検索事情を聞いて一緒に考えてみませんか? Page: 1 いろいろ考えると 日語の全文検索も MySQLがいいね! 須藤功平 日MySQLユーザ会 OSC2014 Tokyo

    いろいろ考えると日本語の全文検索もMySQLがいいね! - Kouhei Sutou - Rabbit Slide Show
  • 全文検索システムの比較 - Elasticsearch vs Solr vs Amazon CloudSearch

    全文検索システムの比較 - Elasticsearch vs Solr vs Amazon CloudSearch February 10, 2014 at 01:05 AM | categories: solr, aws, elasticsearch, web | 候補の選定方法 候補を選定するにあたって、以下の特徴をもっていることを前提とした。 LuceneやGroongaを使えば何でもできるが、ここでは対象としない。 ウェブベースのインターフェースを持つ インデックスの更新はほぼリアルタイムに反映される スケールアウトが容易 Solr https://lucene.apache.org/solr/ Luceneをバックエンドにした全文検索システム。バージョン4になってから大幅に機能が増強された。 長所 実績が十分ある 機能豊富 短所 クラスタを構築して運用するには手間がかかりそう S

    全文検索システムの比較 - Elasticsearch vs Solr vs Amazon CloudSearch
  • 隔週連載groonga 記事一覧 | gihyo.jp

    第10回[実録] MySQL向け全文検索エンジン「Tritonn」から「mroonga」への移行ガイド(3) 吉田健太郎 2013-09-03 第9回mroongaを広く使ってもらうために大事なこと - mroongaのパッケージング動向の紹介 HAYASHI Kentaro (kenhys) 2013-08-20

    隔週連載groonga 記事一覧 | gihyo.jp
  • 第6回 [実録] MySQL向け全文検索エンジン「Tritonn」から「mroonga」への移行ガイド(1) | gihyo.jp

    mroongaのN-gramについては、bigramだけでなく、uni-gramやtri-gramの他、多数の派生N-gramでのトークナイザに対応しています。さらに2013年5月末リリースのmysql-mroonga-3.04にて、待望のWプラグマに対応しました。これにより、Tritonnからmroongaへ移行する際の障壁はEプラグマのみになったと言えます。 Tritonnから乗り換えるならば、mroongaの1択ですね。 Tritonnからmroongaへ移行する7つのメリット それでは早速、Tritonnからmroongaヘ移行するメリットを見てみましょう。 MySQL 5.6対応であること もはやレガシーとなったMySQL 5.0という縛りがなくなることで、MySQL 5.1以降の先進的な機能を取り入れることができます。特にMySQL 5.6ではその進化が甚だしく、次の点を始めと

    第6回 [実録] MySQL向け全文検索エンジン「Tritonn」から「mroonga」への移行ガイド(1) | gihyo.jp
  • Sunspot (Apache Solr) 導入

    こんにちは、tahara です。 いこーよ に Apache Solr の全文検索を使う Sunspot を導入しました。 これとかこれで MySQL の全文検索を使っていましたが、Sunspot を試してみたら 速い ファセットがものすごく便利 Kuromoji という日形態素解析機が使える だったので、 Sunspot は Apache Solr を使う。 Apache Solr を Java を使う。 Java か。。。 というあたりの精神的障壁を克服し、がんばって乗り換えることにしました。 ちょうど Solr 4.0.0 がリリースされたので Solr 4.0.0 sunspot 2.0.0.pre.120925 sunspot_rails 2.0.0.pre.120925 を使うことにしました。 vi Gemfile gem "sunspot_rails", "~> 2.0.

  • Solrの導入資料を公開します - Hatena Developer Blog

    こんにちは、 id:yanbe です。 全文検索エンジンLucene上に構築されたSolrという検索ミドルウェアがあります。拡張性・カスタマイズ性に富み、既存のデータのインポート機能が豊富なのもあって、広く利用されています。 参考: Solr - Wikipedia 国内のウェブサービスでのSolrの採用事例を挙げるとNAVERやCookpad、アメーバなどがありますが、はてなでも以前より一部のサービスでSolrを採用しています。 Solrの公式ドキュメント(英語)はwiki形式で提供されており、網羅的な情報はこちらで手に入ります。また、Solrの基的な使い方を学べるチュートリアルもありますが、「すでにある典型的なLAMP構成のウェブサービスにSolrによる検索機能を組み込む」までには、ここからさらに多くの情報を調べる必要があり、Solrの導入のハードルとなっていると感じました。 そこで

  • InnoDB純正の全文検索エンジンInnoDB FTS

    2011-07-28 InnoDB純正の全文検索エンジンInnoDB FTS つい先日、MySQL-5.6.3-labs版がリリースがされました。この中にはInnoDBで動作する全文検索エンジン"InnoDB FTS"が含まれています。これまでは、MySQLとInnoDBの組み合わせで全文検索を行うためにはサードパーティの製品(mroonga 等..)が必要でしたが、これでズバっと選択肢が広がることになります。しかもInnoDBの開発チームが自ら開発した"純正の"エンジンということですから、これは大きな期待が持てます。 いったいどのような製品に仕上がっているのか、ざっくり記事やソースを読んで得た感触を述べてみたいと思います。 written by daijiro.mori どんなエンジンか? エンジンの概要については、 Overview and Getting Started with I

    InnoDB純正の全文検索エンジンInnoDB FTS
  • 全文検索エンジンgroongaについての発表資料を公開しました。

    2010年末に、3つに勉強会にて「全文検索エンジンgroonga」の紹介をさせていただきました。 第4回Solr勉強会 groongaを囲む夕べ ドワンゴ技術勉強会(2) MySQLについて それぞれの勉強会にて用いた発表資料を公開いたします。 groongaの紹介部分については使いまわしがバレバレですが、それぞれの勉強会の特性に合わせた味付けをしているので、ぜひご覧になっていただければ嬉しいです。勉強会当日のレポートをされている方もいらっしゃるようなので、興味のある方は検索してみるとよいでしょう。 また、groongaを囲む夕べに関しては、他の発表者さんの資料も以下のリンクから見ること...

    全文検索エンジンgroongaについての発表資料を公開しました。
  • 【資料あり】ドワンゴ技術勉強会(2) - ドワンゴ 研究開発ブログ

    こんにちは!先日はドワンゴ技術勉強会生放送をご覧いただき、ありがとうございました! 当日は回線トラブル等々ございましたが、タイムシフトはまだ御覧いただけますので、ぜひご覧ください。 資料公開 社外講師の方の資料も、ご好意によって公開させて頂ける手はずとなりました。ありがとうございます。 「MySQLとPlugin」(鬼海/Dwango)

  • 『アメーバサーチにApache Solr 1.4をつかってみた』

    皆様、こんにちわ 新規開発局コアテクGで、現在はサービスの管理ツールなどの開発を担当しているGakuです。 現在は担当していないのですが、以前に担当しており、全面的に作り直したアメーバサーチについて書かせていただこうかと思います(一番大変だったんですが、一番楽しい開発でした)。 ■以前のアメーバサーチ Lucene使用(RMI機能を使ってました) 検索対象:6000万件ほど(直近3ヶ月~6ヶ月) スケールアップがしにくいつくり Luceneのバージョンアップもむずかしい(バージョンアップ後はRMIは非推奨化予定でした。使えないなと) 「アクセス過多のため・・・・・」と検索できない事が頻発 QPS(一秒辺りの検索数) 50ぐらい(4セット合計で) 急激にアメブロの記事数が増えていた為、明らかにキャパオーバに陥ってしまっていました。 それで・・・・・・・・・ ユーザの方々からおおいにお怒りの声

    『アメーバサーチにApache Solr 1.4をつかってみた』
  • symfonyとHyperEstraierを使って全文検索してみよう - KAYAC engineers' blog

    はじめまして。インターンのsato(@hilotter)です。 突然ですが、みなさんは「全文検索エンジン」って使ったことがありますか? 「全文検索エンジン」と聞くと「何だか難しそうだな」と思われる方もいらっしゃると思います。 僕はまさにそうでした。 そんな全文検索エンジン初心者の僕のもとに、今回、HyperEstraierという全文検索エンジンを使ってキーワード検索機能を実装する機会がありました。 色々調べてみたのですがsymfonyとHyperEstraierを使って検索を行う記事がなかったのでご紹介させていただきます。 間違い等ありましたらご指摘いただければ幸いです。 今回はサンプルとして簡単なキーワード検索機能を作ってみたいと思います。 なお、使用したシステムのバージョンは symfony1.0(ORMはPropel) HyperEstraier1.4.13 となっています。 目次

    symfonyとHyperEstraierを使って全文検索してみよう - KAYAC engineers' blog
  • クレディスト、Kabayakiを用いた企業向けドキュメント共有ソリューションを発表

    クレディストは、企業向けドキュメント共有ソリューション「メールdeシェア with Kabayaki」を発表した。 SRAと三井情報の合弁会社であるクレディストは7月7日、企業向けドキュメント共有ソリューション「メールdeシェア with Kabayaki」を発表した。 同製品は、オープンソースの日語全文検索エンジン「Namazu」をベースにタイムインターメディアが開発した「Kabayaki」を検索システムとして採用した企業向けドキュメント共有ソリューション。メールに添付したファイルをある特定のアカウントに送信するだけでファイルサーバに保存でき、保存されたメールやファイルをKabayakiで検索可能にするもの。 同社はメールdeシェアシリーズで検索エンジンの部分にGoogle検索アプライアンスを用いる「メールdeシェア for GSA」をすでに販売しているが、日語全文検索エンジンとして

    クレディスト、Kabayakiを用いた企業向けドキュメント共有ソリューションを発表
  • 3行でできる超お手軽全文検索 - mixi engineer blog

    梅雨。部屋干しした洗濯物による異臭騒ぎに苦しむmikioです。今回は、Tokyo Cabinetのテーブルデータベースで超お手軽に全文検索をする方法について説明します。 使い方 テーブルデータベースについてまずおさらいしておきましょう。PerlRubyのハッシュのようにコラム名とその値を関連づけた構造を、主キーを識別子として保存するデータベースです。例えばRubyからデータを保存するに以下のように行います。データベースであることをほとんど意識させないというのが素敵ポイントです。APIはCでもPerlでもRubyでもほとんど同じなので、言語にかかわらず同じようにレコードを操作できます。 require 'tokyocabinet' include TokyoCabinet # データベースを開く tdb = TDB::new tdb.open("casket", TDB::OWRITER

    3行でできる超お手軽全文検索 - mixi engineer blog
  • i-revo お客様サポート 重要なお知らせ

    i-revo お客様サポート 重要なお知らせ i-revoマイポータル終了のお知らせ(2017年3月31日) 日頃よりi-revoマイポータルをご愛顧いただき誠にありがとうございます。 このたび、当サイトは2017年3月31日付けにてサービスを終了いたしました。 併せて「プニマル」、「i-revo 占い」についてもサービスを終了いたしました。 2006年3月のサービス開始以来、 お客様および関係各社の皆様にはさまざまに、ご協力をいただきました。 ここに御礼申し上げます。 i-revoマイポータルのサービス終了につきまして、なにとぞご理解いただきたく存じます。 今後とも「i-revo」をよろしくお願い申し上げます。 全て見る

  • Welcome to atseason.com

  • ベイジアンフィルターで日本語を分類する。 - ザリガニが見ていた...。

    ベイジアンフィルターで日語を取り扱う時に問題になってくるのが、文章を品詞レベルに分解する処理。英語の場合は、文章はスペースで区切られた品詞の集合で構成されるため、余分なことをせずに簡単に処理できる。例えば、'How do I set up an AirPort wireless network?'という文章の場合、ベイジアンフィルターは、スペースで区切られた単語を、分類するための判断材料として自動的に取り込んでくれる。 ところが、日語の場合は、「エアポートの無線ネットワークはどうやって設定しますか?」という文章を、「エアポート の 無線 ネットワーク は どう やっ て 設定 し ます か ? 」のように、品詞をスペースで区切った文章に変換して、ベイジアンフィルターに渡してあげる必要があるらしい。これはすごく高度な作業だ。自分のレベルではどうやっても出来ない。 そこで、この高度な作業を

    ベイジアンフィルターで日本語を分類する。 - ザリガニが見ていた...。
    bigwest
    bigwest 2007/08/08
    ベイジアンフィルターでの日本語の分類