タグ

全文検索に関するcyokodogのブックマーク (17)

  • 国産の全文検索エンジンGroonga vs 世界的流行のElasticsearch - CreateField Blog

    2014年4月21日は、第4回Elasticsearch勉強会ですね! http://elasticsearch.doorkeeper.jp/events/8865 第4回Elasticsearch勉強会は、参加希望者が約200名の大反響なようです。 私は勉強会に参加できないので、C言語で書かれた国産の高速な全文検索エンジンGroongaと、Javaで書かれた世界的に勢いのあるElasticsearchについて性能の比較をしたいと思います。 注意事項 今回の検証では1台あたりの馬力を比較するためにサーバ1台での全文検索性能について比較しています。 私は、Groonga(Mroonga)の利用暦が約2年であるのに対し、Elasticsearchの利用暦は2日です。このため、Elasticsearchに対するチューニングの不備や公平な比較になっていない点が含まれている可能性があります。 Ela

    国産の全文検索エンジンGroonga vs 世界的流行のElasticsearch - CreateField Blog
  • クライアントサイドの全文検索エンジン·lunr.js MOONGIFT

    lunr.jsはJavaScript製のオープンソース・ソフトウェア(MIT License)です。 Webサイトを運営していて、煩雑な仕組みになりがちながらも実装を考えなければならないのが全文検索エンジンです。もし作ろうとしているのがWebアプリケーションであれば、いっそのことクライアントサイドで提供してみるのはいかがでしょう。lunr.jsを使えば手軽に実現できます。 デモアプリケーションです。左上に検索ボックスがあるのが分かるかと思います。 検索はインクリメンタルに行われます。ただし全文と言ってもタグとして指定された文字だけに限定されるようです。 インデックスの作り方です。まずindexとしてフィールドを作り、その後addメソッドを使ってオブジェクトを追加していきます。 lunr.jsではテキスト処理部分を別で設ける事ができますので非英語圏では別途分かち書きを行ってインデックス化でき

    クライアントサイドの全文検索エンジン·lunr.js MOONGIFT
  • Apache Solrを利用して本格的な検索エンジンを導入する | A Day In The Boy's Life

    情報を検索するというのは、どんなサービスであれ重要な機能になってきますが、単純なDB検索などでは情報の精度が悪かったり、パフォーマンスが出ないといった問題が出てきます。 SQLのLIKE文ではIndexが使われなかったり、あいまい検索をすると余計な情報が引っかかったりして、その検索順位のスコア付けをしようとすると別のロジックが必要になってきたりして、かなり複雑な処理になってきます。 そんなこんなで億劫になってしまう検索システムですが、Apache Solr を利用すると手軽に高度な検索システムを導入することができます。 Apache SolrはJavaで書かれているため、利用するためにはJava(バージョン1.5以上)の環境を用意する必要があります。 今回の環境では、CentOS6.4にApache Solr4.2をインストールします。 Javaの環境が用意されていない場合は、yum経由と

    Apache Solrを利用して本格的な検索エンジンを導入する | A Day In The Boy's Life
  • 第1回 全文検索エンジンgroongaを紹介します! | gihyo.jp

    今回から始まった隔週連載groongaでは、groongaを使いたくなるような情報を隔週毎にお届けします。 groongaとはGitHubで公開されているオープンソースの全文検索エンジンです。大量にある文書の中から目的のキーワードを持つ文書を高速に見つけることができます。 groongaのロゴ©groongaプロジェクト 第1回目である今回は、この連載についてとgroongaの特徴を紹介します。 この連載について まず、この連載について説明します。 この連載は「読者の皆さんがgroongaを使いたくなる!」ことを目指しています。そのために、次の2点の情報を次回から交互にお届けします。 groongaの利用事例の紹介 利用事例に関連した役立つ情報の紹介 利用事例を紹介することで、「⁠あそこでも使っているなら自分も使ってみようかなぁ」とか「こんな使い方をしているなら自分も使ってみようかなぁ」と

    第1回 全文検索エンジンgroongaを紹介します! | gihyo.jp
  • Google App EngineとJavaとSlim3で全文検索 - Google App Engine / Java / Slim3 のまとめとか

    Google App Engine/JavaとSlim3に特化した全文検索システムを試作してみたので公開します。 http://full-text-search-jp.appspot.com/tweet/top 何故かWeb界隈では、HelloWorldの代わりにTwitterもどきを作るのが流行ってるようなので、それに倣ってみました。 形態素解析にはGomokuを使用しています。当初はBreakIteratorによる辞書レス簡易形態素解析を用いてましたが、検索精度に問題があったので没にしました。 現在までにGoogle松尾さんによるPythonの実装、なかじまんさんのJavaによる実装、kissrobberさんのSlim3(Java)による実装が公開されていますが、今回実装したシステムも基的なアプローチは大体同じだと思います。

    Google App EngineとJavaとSlim3で全文検索 - Google App Engine / Java / Slim3 のまとめとか
  • Oracle Text索引付けの要素

    この章では、各プリファレンスの設定方法について説明します。オプションを使用可能にするには、この章で説明する型の1つを使用してプリファレンスを作成します。 たとえば、ドキュメントを外部ファイルに格納するように指定するには、FILE_DATASTORE型を使用してmydatastoreというデータストア・プリファレンスを作成できます。mydatastoreをデータストア・プリファレンスとしてCREATE INDEXのPARAMETERS句に指定します。 プリファレンスの作成 データストア、レクサー、フィルタ、分類、ワードリストまたは記憶域プリファレンスを作成するには、CTX_DDL.CREATE_PREFERENCEプロシージャを使用し、この章で説明する型の1つを指定します。一部の型に対しては、CTX_DDL.SET_ATTRIBUTEプロシージャで属性も設定できます。 索引付けの型は、索引プ

  • Life with Cygwin

    沖ソフトウェア株式会社は、沖通信システム株式会社および株式会社沖インフォテックと平成22年10月1日をもって合併いたしました。新会社名は、株式会社OKIソフトウェアとなります。3社が行っております事業は新会社にて従来通り継続いたします。

  • はてなブログ | 無料ブログを作成しよう

    来年も作りたい!ふきのとう料理を満喫した 2024年春の記録 春は自炊が楽しい季節 1年の中で最も自炊が楽しい季節は春だと思う。スーパーの棚にやわらかな色合いの野菜が並ぶと自然とこころが弾む。 中でもときめくのは山菜だ。早いと2月下旬ごろから並び始めるそれは、タラの芽、ふきのとうと続き、桜の頃にはうるい、ウド、こ…

    はてなブログ | 無料ブログを作成しよう
  • 全文検索サーバ: これからSolrを始める人のためのApache Solr概要と便利な情報リスト集

    はじめまして。 プロダクト&サービス事業部 リーダーの久保です。 今日は、当社で利用しているOSSの全文検索アプリケーションであるApache Solrについてご紹介したいと思います。 GoogleでSolrを検索しても、日語圏のコンテンツはまだまだ少ないようです。 当社がSolrを使い始めた昨年は現在よりもさらに少なく、結構苦労しました。 今回はやや雑多な内容となりますが、新しくSolrを使う際に必要と考えられる情報をまとめてみました。 エントリーでは、Solr1.3を対象としています。 Solr1.3が現在の安定版で、Solr1.4-devが開発版となります。 目次 Solrとは 機能一覧 実績/事例 Solrを使ったシステムの開発方法 おすすめする方 データ量/性能とハードウェア マルチコア構成 様々な検索 スケールアウト 検索と更新 Solrを始めるための情報リスト 全

  • 簡単なWebサーチエンジンの作り方 - Imagine with 加藤和彦

    筑波大学は3学期制で,12月1日から3学期が始まりました.3学期には私が担当している学類生(普通の大学の学部生)3年生向けの実験があります.約3ヶ月を掛けて,ほどほどの規模のプログラム作成を行います.私が作り,担当しているプログラム実験は「Webサーチエンジン」といいまして,テキストはこちらに公開しています. この実験,結構,自信作なんです.Javaの基的なプログラミングができることだけを仮定して,漏れのない全文検索を行うWebサーエンジンを作ります.Webデータ収集を自動的に行うクローラー付き.Googleのようなページランキング機能はありませんが,一応,サーチエンジンの基機能を備えます.自慢は,このテキストが実質A4で印刷して2ページくらいであること.数学の小問を解いていくように,順番に小問を解いていくと,最後にはWebサーチエンジンができます. ミソはサフィックス・アレイ(suf

    簡単なWebサーチエンジンの作り方 - Imagine with 加藤和彦
  • 【ハウツー】5分で簡単構築! 全文検索サーバ"Fess"を試してみよう | エンタープライズ | マイコミジャーナル

    Fessとは FessはSourceForge.jpで開発されるオープンソースの全文検索サーバである。Apacheライセンスで提供され、無償で利用することができる。オープンソースの全文検索エンジンにはさまざまなものがあるが、Fessの最大の特徴はインストールから起動までが簡単であり、起動後は管理画面ですばやく検索システムとして構築できることが挙げられる。 そのほかの特徴としては次のことが挙げれる。 OS非依存(Java実行環境があれば利用可能) Webまたはファイルシステム上にあるドキュメントを検索対象にできる MS OfficeやPDFなど多くのファイル形式に対応 携帯端末の表示に対応 (端末ごとに検索表示を最適化) Fessの心臓部分ともいえる検索エンジンにはApache Solrが採用されている。Apache Solrはサーバの構成次第では数億ドキュメントも検索対象とすることができ

  • http://www3.vis.ne.jp/~asaki/p_diary/diary.cgi?Date=20091113

  • Fessで作るApache Solrベースの全文検索サーバー ~ 導入編

    はじめに ドキュメントは日々増えて続けています。ドキュメントの数が多くなるほど、目的の情報は見つけにくくなるため、それらのドキュメントを効率よく管理する方法が必要です。その解決策の一つとして、複数のドキュメント(ファイル)をまたいで検索することができる「全文検索サーバー」の導入が挙げられます。 Fessは簡単に導入できる、Javaベースのオープンソース全文検索サーバーです。Fessの検索エンジン部分にはApache Solrを利用しています。Solrは、2億ドキュメントもインデックス可能と言われる非常に高機能な検索エンジンです。一方で、Apache Solrで検索システムを構築しようとする場合、クローラ部分などを自分で実装する必要性があります。Fessではクローラ部分にSeasar Projectから提供されるS2Robotを利用して、ウェブやファイルシステム上の様々な種類のドキュメントを

    Fessで作るApache Solrベースの全文検索サーバー ~ 導入編
  • はてなブログ | 無料ブログを作成しよう

    週報 2024/04/28 川はただ流れている 4/20(土) 初期値依存性 さいきん土曜日は寝てばかり。平日で何か消耗しているらしい。やったことと言えば庭いじりと読書くらい。 ベランダの大改造をした。 サンドイッチ 一年前に引っ越してからこんな配置だったのだけど、さいきん鉢を増やしたら洗濯担当大臣の氏…

    はてなブログ | 無料ブログを作成しよう
  • 全文検索を実装したソースコードを読もう (1/4)- @IT

    第6回 全文検索を実装したソースコードを読もう 倉貫 義人 松村 章弘 TIS株式会社 SonicGarden 2009/9/3 優れたプログラマはコードを書くのと同じくらい、コードを読みこなせなくてはならない。優れたコードを読むことで、自身のスキルも上達するのだ(編集部) いよいよオープンソースの社内SNS「SKIP」を使ったコードリーディングも最終回となりました。Railsの基的な構成から、テストコードやRSpecの書き方といった内容に加え、前回はOpenIDをRailsで活用する応用編まで、コードとともに学んできました。 最終回となる今回は、SKIPの目玉機能の1つである全文検索を扱います。最終回にふさわしく、内容も高度なものになっていますが、ここまでおつきあいいただいた読者の皆さまであれば、十分に理解できる内容だと思います。 SKIPにおける全文検索機能では、任意の検索キーワード

  • はてなブログ | 無料ブログを作成しよう

    聖蹟桜ヶ丘へ 今年度の授業が全て終了した。最後の授業はテスト返却とその確認作業の後は特に何をしろとも言われていなかったので、『耳をすませば』の後半、お姉さんと雫が言い争いをする場面を生徒と皆で見た。 この場面。あの場面、お姉さんは雫に「今しなきゃいけないことから逃…

    はてなブログ | 無料ブログを作成しよう
  • http://www.itarchitect.jp/enterprise/-/25122.html

  • 1