MySQL Casual Talks Vol.4 でのライトニングトークに利用した資料です。 MySQL-5.6.4より「InnoDB FTS」としてInnoDBで全文検索機能が加わりました。 この全文検索機能を利用し、日本語の全文検索エンジンとしての可能性を探ります。 ブログ記事はこちらです。 http://y-ken.hatenablog.com/entry/mysql-casual-talks-vol4-innodb-ftsRead less
![MySQL Casual Talks Vol.4 「MySQL-5.6で始める全文検索 〜InnoDB FTS編〜」](https://cdn-ak-scissors.b.st-hatena.com/image/square/83ddba6b2b5426f93e78dd230dbb3dfc32f07494/height=288;version=1;width=512/https%3A%2F%2Fcdn.slidesharecdn.com%2Fss_thumbnails%2Fmysql-5-6innodbfts-130420105424-phpapp02-thumbnail.jpg%3Fwidth%3D640%26height%3D640%26fit%3Dbounds)
化学者のつぶやき 論文コレクター必見!WindowsでPDFを全文検索する方法 2014/1/10 化学者のつぶやき, 実験・テクニック, 書籍・ソフト・Web 投稿者: cosine 電子論文が容易かつ大量に入手可能となった現在、その管理は最重要懸念事項です。ケムステでも各種文献管理法(Evernote、Mendeley、ReadCubeなど)をご紹介してきました。 しかし、専用ソフトを使う方法には一つだけ欠点があります。 「望みの論文を見つけ出すために、わざわざソフトを起動してフォーカスを移さなくてはならない」という一手間がかかるのです。 ・・・それぐらいやれよ!という声が聞こえてきそうですが、何度も積み重なるとこれはこれでめんどくさいんで・・・。 筆者はWindowsユーザなのですが、問題の根源は「ダウンロードしたはずの論文を全文検索で見つけ出せないこと」にあると考えます。PDFの中
続きを書きました。 RubyでただのArrayだと思って・・の続きです。正月中に整備してgem化しました。 GrnMini ongaeshi/grn_mini Groonga(Rroonga)を簡単に使えるようにラップしたものです。 カラム指定不要でデータを追加することが出来ます。 永続化、高度な検索クエリ、ソート、グループ化(ドリルダウン)、スニペット、ページネーションなどを簡単に使うことが出来ます。 検索エンジンがすぐに作れます。 インストール $ gem install grn_mini 基本的な使い方 実体はRroongaの薄いラッパーですが難しいことを考えずに使えるよう工夫しています。 require 'grn_mini' array = GrnMini::Array.new("test.db") 初めてデータを追加する時にカラム種類を類推して作成します。追加するデータが文字列の
を前提としてHyper Estraier のインストールと設定を行います。 STEP1.HyperEstraierのインストール $ apt-get install hyperestraier テキスト以外にもWord、Excel、PowerPointを検索対象とする場合には、wv、xlhtml、ppthtmlのインストールが必要です。 $ apt-get install wv xlhtml ppthtml STEP2.cgi-binの設定 通常はdefaultでcgi-binに関しては設定済みですから設定は不要です。 変更する場合に参考にしてください。 ScriptAlias /cgi-bin/ /usr/lib/cgi-bin/ <Directory "/usr/lib/cgi-bin/"> AllowOverride None Options +ExecCGI -MultiView
前提としてTokyoCabinet(若しくはTokyoTyrant)にテーブルDBがあり、 その複数カラムにまたがって全文検索ができるようにしたい。 例えばブログでいえばタイトルと本文と追記から全文検索をしたいとする。 Tokyoシリーズを使うということは平林幹雄氏の製品を信頼しているということなので、 できればmade by mikioで検索できればいいなと思って調べてみたところ、 想像以上に様々な方法があって迷った。 有力そうな4案について勝手に長所と短所をまとめてみるので参考にして下さい。 Hyper Estraierを使う http://hyperestraier.sourceforge.net/index.ja.html Tokyo Tyrantにインデックスを張る mixi engineer blog Tokyo Tyrant+Lua拡張で転置インデックスを作成 mixi en
夏本番に向けて海に行ける体作りに励まないといかんなーと思いつつも、ついついDSのスターフォックスで遊んでしまうmikioです。さて今回は、人知れずリリースされている検索エンジンTokyo Dystopiaの概要と設計思想について述べます。 Hyper Estraierとの違い Tokyo Dystopia(以下、TDと呼びます)は、新しい検索エンジンです。しかし、私が作ったもう一つの検索エンジンHyper Estraier(以下、HEと呼びます)の後継としては位置付けていません。 Hyper Estraierの製品コンセプトは、「検索システムの需要が生じる様々なシーンで手軽に導入できる」ことです。言い換えれば、「いわゆるシロウトの人でも、お高い商用システムを買えない個人や小組織でも、ちょっとの努力で自分の要求を満たすシステムを構築できる」ことです。そのために、様々なファイル形式に対応したテ
Overview Tokyo Dystopia is a full-text search system. You can search lots of records for some records including specified patterns. The characteristic of Tokyo Dystopia is the following. High performance of search High scalability of target documents Perfect recall ratio by character N-gram method Phrase matching, prefix matching, suffix matching, and token matching Multilingualism with Unicode La
Overview Hyper Estraier is a full-text search system. You can search lots of documents for some documents including specified words. If you run a web site, it is useful as your own search engine for pages in your site. Also, it is useful as search utilities of mail boxes and file servers. The characteristic of Hyper Estraier is the following. High performance of search High scalability of target d
前回のMilkodeでの事例紹介では、Rubyでrroongaを使ってソースコード検索エンジンを実装している事例を紹介しました。Milkodeは全文検索エンジンを組み込むことにより、大量のファイルに対しても高速な検索を実現しています。rroongaを使った代表的なアプリケーションの1つです。プログラマにとってとても便利なアプリケーションなので、ぜひ使ってみてください。 前回はユーザ視点からのrroongaの紹介でしたが、今回は違った角度から紹介します。rroongaの歴史、大事にしていることについて説明します。 自分のアプリケーションで利用するプロダクトを検討するときに、プロダクトがどのような方向で作られているかを考慮していますか? 自分のアプリケーションが大事にしたいことをそのプロダクトでも大事にしているなら、相性がよいかもしれません。さて、rroongaはあなたが大事にしたいことを大事
2012年01月16日16:30 カテゴリアルゴリズム百選Lightweight Languages Algorithm - Suffix Array を JavaScript で再発明してみた WEB+DB 総集編 [Vol. 1〜60] もう10年以上前に某社のCTOだったころ、Suffix array(接尾辞配列)の解説を毎週の技術者ミーティングでしたら一名を除いて「ハァ?」状態だったことを思い出しつつ。 Suffix Arrayは何が画期的だったのか? 以下は、計算機科学者でなくても直感的に理解できると思います。 ソートされていない通常のデータの中にあるサブデータ(キー)を検索しようとすると、データの大きさに比例した時間(O(n))がかかる。 ソート済みのデータであれば、二分探索でデータの大きさの対数時間(O(logn))でキーを検索できる。 さらにキーからIDを定数時間で作成でき
What is sary? sary is a suffix array library and tools. It provides fast full-text search facilities for text files on the order of 10 to 100 MB using a data structure called a suffix array. It can also search specific fields in a text file by assigning index points to those fields. Table of Contents What's New Characteristics Brief Introduction to Suffix Array libsary Reference Manual Using the I
Webサービスの裏側では様々なデータが蓄積されており、また企業内ではWord・Excel・メールなどの形でデータが日々増大しています。このデータを単にためておくだけではなく、有効活用するためにはデータからの「情報検索」が必須となります。 この「情報検索」を実現するためには、様々なデータソース(DB, ファイルリポジトリ等)からの柔軟なデータの取り込みと、大規模なデータに対して高速な検索を行うための検索エンジンが、Sedue(セデュー)。 様々な検索ニーズに対応する”統合検索プラットフォーム”です。 蓄積された大規模データから、いかに素早く・簡単に情報を取り出せるかをテーマに製品化、テキストデータの全文検索はもちろん、レコメンデーション(関連文書検索・行動履歴推薦)のための機能も備えています。またデータの取り込みはリアルタイムに行う事が出来ます。 これまでは異なる情報検索ニーズに対して、異な
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く