[B! 全文検索] bigwestのブックマーク

Amazon RDS for MySQL と全文検索 | DevelopersIO

こんにちは、藤本です。先日開催された Developers.IO 2017 で「Amazon Elasticsearch Service の使いドコロ」というタイトルで登壇しました。 Developers.IO 2017セッション「Amazon Elasticsearch Service の使いドコロ」で話しました #cmdevio2017 資料を作成する中で MySQL 5.7 から追加された全文検索の日本語対応に関して調べました。せっかくなのでまとめた内容をブログに書き出すとともに、RDS だとどこまでできるのかということを追加調査してみました。 MySQL 5.7 の日本語全文検索に関しては公式ドキュメントや、Oracle の方のスライドに詳しく説明されていますので、詳しく知りたい方は下記をご参照ください。 12.9 Full-Text Search Functions MySQL

bigwest 2017/07/31

リンク

Amazon Elasticsearch Serviceで始める全文検索入門 | DevelopersIO

日本語で全文検索できるようにする次にElasticsearch で日本語で全文検索するためのkuromojiプラグインを有効にします。以下のコマンドのEndpointとIndex名の部分を書き換えて実行して下さい。EndpointはManagement Consoleに表示されているものです。Index名は何でもいいです。今回はdiaryにしています。最後の行は実行結果なので最後から2行目までをコピーして実行してみてください。EndpointはManagement Consoleを確認してください。 $ curl -XPOST 'http://search-full-text-search-sample-xxxxxxxxxx.ap-northeast-1.es.amazon aws.com/diary/' -d ' { "index":{ "analysis":{ "tokenizer"

bigwest 2016/10/12

リンク

MySQL 5.7.6のInnoDB日本語全文検索 ngram

日々の覚書: プレビュー "MySQL 5.7.6のInnoDB日本語全文検索 MeCab Plugin" に引き続き、今度はngramなトークナイザー。ドキュメントはここ。 MeCab Pluginと違って特にINSTALL PLUGINとかせずに即使える。 mysql> ALTER TABLE articles ADD FULLTEXT KEY (title, content) WITH PARSER ngram; Query OK, 0 rows affected (6 hours 25 min 20.67 sec) Records: 0 Duplicates: 0 Warnings: 0 ( д ) ﾟﾟ 6時間半！？しょうがないとはいえ、MeCabのときは1時間半でお釣りが来てたのにと思うとちょっとしょんぼり。時間もさることながら、このやり方(データをインポートしてから

bigwest 2015/03/13

リンク

MySQL 5.7.6のInnoDB日本語全文検索 MeCab Plugin

MySQL :: MySQL 5.7 Reference Manual :: 12.9.9 InnoDB MeCab Full-Text Parser Plugin の内容のおさらい。まず、基本的なライブラリーと辞書は(この記事を書いている時点では).tar.gzバイナリーに同梱されているっぽいのでそちらを使う。Oracle公式のyumリポジトリーからインストールできるrpmには含まれていないように見えるので、その場合は別途突っ込まないといけないはずだけど、libpluginmecab.soが何かにダイナミックリンクしているわけではないので、辞書だけ取ってきてmecabrcに設定すればいけるような気がする。詳しく調べてない。この環境はバイナリーの.tar.gzを取ってきて、/usr/local/mysqlに展開したとして、 $ ll /usr/local/mysql/lib/plug

bigwest 2015/03/13

リンク

いろいろ考えると日本語の全文検索もMySQLがいいね！ - Kouhei Sutou - Rabbit Slide Show

Description MySQLは広く使われているRDBMSです。速いし、レプリケーションのノウハウもあるし、Web上にたくさんの情報もあるからいざというときも安心、というのがその理由でしょう。そんなMySQLの弱点の1つがデフォルトでは日本語で全文検索できないことです。でも、日本語で全文検索したいし。。。どうしよう。そんなあなたに最近の日本語の全文検索事情を紹介します。Solr？Elasticsearch？Groonga？PostgreSQLはどうやっているの？Mroonga？Sphinx？いろいろ考えると日本語で全文検索するときもMySQLを使うのがいいね！と思えてくるから不思議です。最近の日本語の全文検索事情を聞いて一緒に考えてみませんか？ Page: 1 いろいろ考えると日本語の全文検索も MySQLがいいね！須藤功平日本 MySQLユーザ会 OSC2014 Tokyo

bigwest 2014/10/21

リンク

全文検索システムの比較 - Elasticsearch vs Solr vs Amazon CloudSearch

全文検索システムの比較 - Elasticsearch vs Solr vs Amazon CloudSearch February 10, 2014 at 01:05 AM | categories: solr, aws, elasticsearch, web | 候補の選定方法候補を選定するにあたって、以下の特徴をもっていることを前提とした。 LuceneやGroongaを使えば何でもできるが、ここでは対象としない。ウェブベースのインターフェースを持つインデックスの更新はほぼリアルタイムに反映されるスケールアウトが容易 Solr https://lucene.apache.org/solr/ Luceneをバックエンドにした全文検索システム。バージョン4になってから大幅に機能が増強された。長所実績が十分ある機能豊富短所クラスタを構築して運用するには手間がかかりそう S

bigwest 2014/03/09

全文検索

リンク

隔週連載groonga 記事一覧 | gihyo.jp

第10回[実録] MySQL向け全文検索エンジン「Tritonn」から「mroonga」への移行ガイド（3）吉田健太郎 2013-09-03 第9回mroongaを広く使ってもらうために大事なこと - mroongaのパッケージング動向の紹介 HAYASHI Kentaro (kenhys) 2013-08-20

bigwest 2013/11/04

リンク

第6回　[実録] MySQL向け全文検索エンジン「Tritonn」から「mroonga」への移行ガイド（1） | gihyo.jp

mroongaのN-gramについては、bigramだけでなく、uni-gramやtri-gramの他、多数の派生N-gramでのトークナイザに対応しています。さらに2013年5月末リリースのmysql-mroonga-3.04にて、待望のWプラグマに対応しました。これにより、Tritonnからmroongaへ移行する際の障壁はEプラグマのみになったと言えます。 Tritonnから乗り換えるならば、mroongaの1択ですね。 Tritonnからmroongaへ移行する7つのメリットそれでは早速、Tritonnからmroongaヘ移行するメリットを見てみましょう。 MySQL 5.6対応であることもはやレガシーとなったMySQL 5.0という縛りがなくなることで、MySQL 5.1以降の先進的な機能を取り入れることができます。特にMySQL 5.6ではその進化が甚だしく、次の点を始めと

bigwest 2013/06/26

リンク

Sunspot (Apache Solr) 導入

こんにちは、tahara です。いこーよに Apache Solr の全文検索を使う Sunspot を導入しました。これとかこれで MySQL の全文検索を使っていましたが、Sunspot を試してみたら速いファセットがものすごく便利 Kuromoji という日本語形態素解析機が使えるだったので、 Sunspot は Apache Solr を使う。 Apache Solr を Java を使う。 Java か。。。というあたりの精神的障壁を克服し、がんばって乗り換えることにしました。ちょうど Solr 4.0.0 がリリースされたので Solr 4.0.0 sunspot 2.0.0.pre.120925 sunspot_rails 2.0.0.pre.120925 を使うことにしました。 vi Gemfile gem "sunspot_rails", "~> 2.0.

bigwest 2012/10/31

リンク

Solrの導入資料を公開します - Hatena Developer Blog

こんにちは、 id:yanbe です。全文検索エンジンLucene上に構築されたSolrという検索ミドルウェアがあります。拡張性・カスタマイズ性に富み、既存のデータのインポート機能が豊富なのもあって、広く利用されています。参考: Solr - Wikipedia 国内のウェブサービスでのSolrの採用事例を挙げるとNAVERやCookpad、アメーバなどがありますが、はてなでも以前より一部のサービスでSolrを採用しています。 Solrの公式ドキュメント(英語)はwiki形式で提供されており、網羅的な情報はこちらで手に入ります。また、Solrの基本的な使い方を学べるチュートリアルもありますが、「すでにある典型的なLAMP構成のウェブサービスにSolrによる検索機能を組み込む」までには、ここからさらに多くの情報を調べる必要があり、Solrの導入のハードルとなっていると感じました。そこで

bigwest 2012/05/05

リンク

InnoDB純正の全文検索エンジンInnoDB FTS

2011-07-28 InnoDB純正の全文検索エンジンInnoDB FTS つい先日、MySQL-5.6.3-labs版がリリースがされました。この中にはInnoDBで動作する全文検索エンジン"InnoDB FTS"が含まれています。これまでは、MySQLとInnoDBの組み合わせで全文検索を行うためにはサードパーティの製品(mroonga 等..)が必要でしたが、これでズバっと選択肢が広がることになります。しかもInnoDBの開発チームが自ら開発した"純正の"エンジンということですから、これは大きな期待が持てます。いったいどのような製品に仕上がっているのか、ざっくり記事やソースを読んで得た感触を述べてみたいと思います。 written by daijiro.mori どんなエンジンか? エンジンの概要については、 Overview and Getting Started with I

bigwest 2011/07/29

リンク

全文検索エンジンgroongaについての発表資料を公開しました。

2010年末に、３つに勉強会にて「全文検索エンジンgroonga」の紹介をさせていただきました。第4回Solr勉強会 groongaを囲む夕べドワンゴ技術勉強会(2) MySQLについてそれぞれの勉強会にて用いた発表資料を公開いたします。 groongaの紹介部分については使いまわしがバレバレですが、それぞれの勉強会の特性に合わせた味付けをしているので、ぜひご覧になっていただければ嬉しいです。勉強会当日のレポートをされている方もいらっしゃるようなので、興味のある方は検索してみるとよいでしょう。また、groongaを囲む夕べに関しては、他の発表者さんの資料も以下のリンクから見ること...

bigwest 2011/02/01

リンク

【資料あり】ドワンゴ技術勉強会(2) - ドワンゴ研究開発ブログ

こんにちは！先日はドワンゴ技術勉強会生放送をご覧いただき、ありがとうございました！当日は回線トラブル等々ございましたが、タイムシフトはまだ御覧いただけますので、ぜひご覧ください。資料公開社外講師の方の資料も、ご好意によって公開させて頂ける手はずとなりました。ありがとうございます。「MySQLとPlugin」(鬼海/Dwango)

bigwest 2010/12/13

リンク

『アメーバサーチにApache Solr 1.4をつかってみた』

皆様、こんにちわ新規開発局コアテクGで、現在はサービスの管理ツールなどの開発を担当しているGakuです。現在は担当していないのですが、以前に担当しており、全面的に作り直したアメーバサーチについて書かせていただこうかと思います（一番大変だったんですが、一番楽しい開発でした）。 ■以前のアメーバサーチ Lucene使用（RMI機能を使ってました）検索対象：6000万件ほど（直近3ヶ月～6ヶ月）スケールアップがしにくいつくり Luceneのバージョンアップもむずかしい（バージョンアップ後はRMIは非推奨化予定でした。使えないなと）「アクセス過多のため・・・・・」と検索できない事が頻発 QPS（一秒辺りの検索数）　50ぐらい（4セット合計で）急激にアメブロの記事数が増えていた為、明らかにキャパオーバに陥ってしまっていました。それで・・・・・・・・・ユーザの方々からおおいにお怒りの声

bigwest 2010/12/01

リンク

symfonyとHyperEstraierを使って全文検索してみよう - KAYAC engineers' blog

はじめまして。インターンのsato(@hilotter)です。突然ですが、みなさんは「全文検索エンジン」って使ったことがありますか？「全文検索エンジン」と聞くと「何だか難しそうだな」と思われる方もいらっしゃると思います。僕はまさにそうでした。そんな全文検索エンジン初心者の僕のもとに、今回、HyperEstraierという全文検索エンジンを使ってキーワード検索機能を実装する機会がありました。色々調べてみたのですがsymfonyとHyperEstraierを使って検索を行う記事がなかったのでご紹介させていただきます。間違い等ありましたらご指摘いただければ幸いです。今回はサンプルとして簡単なキーワード検索機能を作ってみたいと思います。なお、使用したシステムのバージョンは symfony1.0（ORMはPropel） HyperEstraier1.4.13 となっています。目次

bigwest 2010/10/28

リンク

クレディスト、Kabayakiを用いた企業向けドキュメント共有ソリューションを発表

クレディストは、企業向けドキュメント共有ソリューション「メールdeシェア with Kabayaki」を発表した。 SRAと三井情報の合弁会社であるクレディストは7月7日、企業向けドキュメント共有ソリューション「メールdeシェア with Kabayaki」を発表した。同製品は、オープンソースの日本語全文検索エンジン「Namazu」をベースにタイムインターメディアが開発した「Kabayaki」を検索システムとして採用した企業向けドキュメント共有ソリューション。メールに添付したファイルをある特定のアカウントに送信するだけでファイルサーバに保存でき、保存されたメールやファイルをKabayakiで検索可能にするもの。同社はメールdeシェアシリーズで検索エンジンの部分にGoogle検索アプライアンスを用いる「メールdeシェア for GSA」をすでに販売しているが、日本語全文検索エンジンとして

bigwest 2009/07/15

全文検索

リンク

3行でできる超お手軽全文検索 - mixi engineer blog

梅雨。部屋干しした洗濯物による異臭騒ぎに苦しむmikioです。今回は、Tokyo Cabinetのテーブルデータベースで超お手軽に全文検索をする方法について説明します。使い方テーブルデータベースについてまずおさらいしておきましょう。PerlやRubyのハッシュのようにコラム名とその値を関連づけた構造を、主キーを識別子として保存するデータベースです。例えばRubyからデータを保存するに以下のように行います。データベースであることをほとんど意識させないというのが素敵ポイントです。APIはCでもPerlでもRubyでもほとんど同じなので、言語にかかわらず同じようにレコードを操作できます。 require 'tokyocabinet' include TokyoCabinet # データベースを開く tdb = TDB::new tdb.open("casket", TDB::OWRITER

bigwest 2009/06/24

リンク

i-revo お客様サポート重要なお知らせ

i-revo お客様サポート重要なお知らせ i-revoマイポータル終了のお知らせ（2017年3月31日）日頃よりi-revoマイポータルをご愛顧いただき誠にありがとうございます。このたび、当サイトは2017年3月31日付けにてサービスを終了いたしました。併せて「プニマル」、「i-revo 占い」についてもサービスを終了いたしました。 2006年3月のサービス開始以来、お客様および関係各社の皆様にはさまざまに、ご協力をいただきました。ここに御礼申し上げます。 i-revoマイポータルのサービス終了につきまして、なにとぞご理解いただきたく存じます。今後とも「i-revo」をよろしくお願い申し上げます。全て見る

bigwest 2008/02/27

全文検索

リンク

Welcome to atseason.com

bigwest 2007/09/26

リンク

ベイジアンフィルターで日本語を分類する。 - ザリガニが見ていた...。

ベイジアンフィルターで日本語を取り扱う時に問題になってくるのが、文章を品詞レベルに分解する処理。英語の場合は、文章はスペースで区切られた品詞の集合で構成されるため、余分なことをせずに簡単に処理できる。例えば、'How do I set up an AirPort wireless network?'という文章の場合、ベイジアンフィルターは、スペースで区切られた単語を、分類するための判断材料として自動的に取り込んでくれる。ところが、日本語の場合は、「エアポートの無線ネットワークはどうやって設定しますか？」という文章を、「エアポートの無線ネットワークはどうやって設定しますか？」のように、品詞をスペースで区切った文章に変換して、ベイジアンフィルターに渡してあげる必要があるらしい。これはすごく高度な作業だ。自分のレベルではどうやっても出来ない。そこで、この高度な作業を

bigwest 2007/08/08

ベイジアンフィルターでの日本語の分類

リンク

はてなブックマーク

タグ

関連タグで絞り込む (20)

全文検索に関するbigwestのブックマーク (26)

お知らせ

今週のはてなブックマーク数ランキング（2024年7月第3週）

今週のはてなブックマーク数ランキング（2024年7月第2週）

はてなブックマーク透明性レポート（2024年 2月-2024年4月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス