タグ

Indexとfull text searchに関するyassのブックマーク (9)

  • Luceneのメモリ上でのインデックス構造とその仕組み - エムスリーテックブログ

    エムスリーエンジニアリンググループ AI機械学習チームでソフトウェアエンジニアをしている中村(@po3rin) です。 弊社では毎週水曜日にElasticsearchとLuceneのコードリーディング会が開催されています。最近ではLuceneのFSTやKD-Tree、もうすぐ公開されるNSWの実装周りを読んでいました。 先日、私の発表回でLuceneのメモリ上での転置インデックスのデータ構造について発表したので、その内容を紹介します。Luceneのことが少しでも身近に感じていただければ幸いです。 Luceneとは 転置インデックスに関する事前知識 Luceneの事前知識 Luceneのメモリ上での転置インデックス実装内部 確保したメモリがあふれた場合 まとめ We're hiring !!! Luceneとは github.com Elasticsearchの内部で利用されているオープン

    Luceneのメモリ上でのインデックス構造とその仕組み - エムスリーテックブログ
  • 検索エンジン自作入門 ~手を動かしながら見渡す検索の舞台裏

    2014年9月25日紙版発売 2014年9月25日電子版発売 山田浩之,末永匡 著 A5判/224ページ 定価2,948円(体2,680円+税10%) ISBN 978-4-7741-6753-4 ただいま弊社在庫はございません。 Amazon 楽天ブックス 丸善ジュンク堂書店 ヨドバシ.com 電子版 Gihyo Digital Publishing Amazon Kindle 楽天kobo honto 書のサポートページサンプルファイルのダウンロードや正誤表など このの概要 まいにち使っている検索エンジンがどうやって動いているか,知っていますか? 書では,小さな検索エンジンを作りながら,ソースコードレベルで検索エンジンのしくみを解説。 Yahoo!Japanの検索エンジン開発チームを経て2008年度上期未踏IT人材発掘・育成事業において高性能分散型検索エンジンの開発によりスーパ

    検索エンジン自作入門 ~手を動かしながら見渡す検索の舞台裏
  • Lucece Indexing

    2. What is a Search Index Search Index is a variant of Database Similarities with traditional RDBMS Needs to have fast lookup for keys Bulk of data resides on secondary storage Minimize secondary storage access Differences(additions) compared to RDBMS No definitive score, returns only top k ranked hits Relaxed transactional requirements Two-level processing required ( details later..) 3. Requireme

    Lucece Indexing
  • wat-arrayでラクラク実装☆FM-Indexの作り方 - EchizenBlog-Zwei

    というわけで大変便利なライブラリwat-arrayを使ってFM-Indexを簡単に実装してみるよ。格的なライブラリは既にFM-Index++という良いものがあるので、記事では仕組みの解説を目的とする。 参考資料: FM-index++を公開しました - tb_yasuの日記 An alphabet-friendly FM-index (P. Ferragina, G. Manzini, V. Makinen, G. Navarro, 2004) なお、記事では前回の記事で実装した(ってほどでもないけど)text2bwt()とLF()を使っている。 話題のwat-arrayを使ってBurrows-Wheeler変換(BWT)してみた - EchizenBlog-Zwei 今回もテキストとしてmississippi#を使う。まずテキストから任意のキーの出現回数を得る関数get_rows(

    wat-arrayでラクラク実装☆FM-Indexの作り方 - EchizenBlog-Zwei
  • 転置インデックスとTop k-query

    7. 代表的なクエリのタイプ  AND検索 (Conjunctive query)  クエリ������ = (������1 , … , ������������ )が与えられた時に全ての������������ が含まれる文章を返す  例 : ������ = (������������������������ℎ, ������������������, ������������������������������)ならば”watch”, “iwc”, “rolex”全てが含まれる文章を返す  OR検索 (Disjunctive query)  クエリ������ = (������1 , … , ������������ )が与えられた時に������������ のいず れかが含まれる文章を返す  例 : ������ = (����������������������

    転置インデックスとTop k-query
  • 全文検索エンジン Miniseをリリース + WEB+DBで全文検索の特集記事 - DO++

    全文検索エンジンの Minise: MIni Search Engineをリリースしました. このエンジンは全文検索の基的な機能をサポートしたもので,索引手法は逐次検索(索引無),N-gram,転置ファイル,接尾辞配列をサポートしており,そこそこ最適化を行ってます.Wikipedia語版を実験で使ったもので20万文書で構築時間が500秒前後,検索時間が一クエリあたり数msとなっています. BSDライセンスで公開しています. 割りきって,機能を絞ってシンプルな構成にしていますので改造したりしやすいようになっています。まだ、ドキュメントはないですが、C++ APIとして利用しやすいようにもなっていますので、研究用途などで新しい索引やランキングとかでの利用も想定しています(実際に研究用で使ってます). --- 今回の全文検索ライブラリを開発する機会になったのが,私が担当した今月号のWEB+

    全文検索エンジン Miniseをリリース + WEB+DBで全文検索の特集記事 - DO++
  • LuceneのインデックスにStoreするデータをMessagePackで圧縮してみた|社内NEET宣言

    社内NEET宣言 文学部出身なのにIT企業で研究開発をすることになった社員のブログです。 PR Profile [ルームを見る|なうを見る] ニックネーム:just do neet 性別:男性 誕生日:さだまさしがソロデビューしたあたり 出身地:神奈川県 自己紹介: NEETは豊かさの象徴だから進んでNEETになるべきです。 ブログジャンル:エンジニア/ニート メッセージを送る アメンバーになる プレゼントを贈る [Publish] Calendar <<May>> S M T W T F S 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Theme ブログ ( 22 ) Java ( 29 ) 職場の風景 ( 26 ) インターネット ( 15 ) Unix系OS (

  • 情報検索ことはじめ〜教科書編〜 - シリコンの谷のゾンビ

    2011-01-18追記 教科書編その2 にて2011年版のIR教科書を紹介しています 情報検索(IR)の勉強を格的に始めて8ヶ月.大体どんな分野があって,どんなことを勉強すればいいのかわかってきた(と思う).この気持ちを忘れないうちにメモしておこう.以下,若輩があーだこーだ言ってるだけなので,間違いや他に情報があれば,ぜひコメントをお願いします. # ここで述べている情報検索とは,コンピュータサイエンスの一分野としての情報検索です.図書館情報学の側面は一切扱っていません,あしからず. というわけでまず教科書編. 腰を入れて勉強する場合,基礎づくりのためには教科書選びがいちばん重要だと思っている.自分の知っている限り,情報検索における教科書の選択肢はそれほど広くはない.以下に紹介するは,情報検索を学ぶ上で「買い」の.これらを読めば,最新の論文を読めるだけの土台はできるし,専門家と議

    情報検索ことはじめ〜教科書編〜 - シリコンの谷のゾンビ
  • TXTCache Index uniquely : ホーム

    圧縮インデックスライブラリ「TXTCache」,圧縮Suffix ArrayなどのJava実装パッケージ,オンメモリで全文検索を行うことができる,高速な検索エンジンやユニークなデータモデルの開発が可能となる圧縮インデックス(Compressed Index)のJavaのライブラリ。 接尾辞配列(Suffix Array)、圧縮接尾辞配列(Compressed Suffix Array)、LZ-Indexなどを含んだパッケージ。 オープンソース。 ライセンスは、GPLまたはLGPLのユーザー選択式。 無償。 GPL版ダウンロード LGPL版ダウンロード Operaの場合、お手数ですが、ダウンロード後、ファイル名に.zipを付ける必要があります。

  • 1