タグ

javaとsearchに関するtarchanのブックマーク (5)

  • [Think IT] 第1回:OSS検索エンジンLuceneとは (1/3)

    「JBoss Enterprise Application Platformの全貌」では全4回にわたって、JBoss Enterprise Middleware全般について解説している。 連載ではJBoss Enterprise Middlewareを使った具体例として「エンタープライズレベルの検索サービス」を提供するWebアプリケーションを取り上げ、試作する。なお、検索エンジンにはオープンソースソフトウェア(以下、OSS)のApache Lucene(以下、Lucene:ルシーン)を使用する。 ここで述べる「エンタープライズレベルの検索(注1)」サービスとは、企業が保有する大量のコンテンツを高速に検索するサービスのこととする。Luceneは小規模(文書数が数万件以下)から大規模(数百万件以上)のコンテンツを高速に検索することを得意としているため、「エンタープライズレベルの検索」に適して

  • 検索クエリログからのスペル訂正辞書の自動生成 - mixi engineer blog

    先月ハワイに行ってきてオルオルな (ハワイ語で '楽しい' という意味) 気分の takahi-i です。最近ログデータの有効活用が話題になっていますが、検索エンジンが出力する検索クエリログを使用してどんなことができるのかについて紹介させていただきます。 検索クエリログ 検索クエリログ (以下検索ログ) は検索エンジンを使用するユーザから発行された検索の履歴を保存したファイルです。検索ログのフォーマットは使用する検索エンジンや Web サーバによって異なります。さらにまた検索ログが含む情報にも差異があることが考えられますが、稿では検索ログは解析を行う上で重要な三つの要素を含むと仮定します。三つの要素とはユーザ ID (もしくは IP アドレス)、クエリ文、そしてクエリが検索エンジンに処理された時間です。以下検索ログの一例を載せます。 ユーザID クエリ文 クエリ発行時 438904 Su

    検索クエリログからのスペル訂正辞書の自動生成 - mixi engineer blog
  • LinkedInが開発したリアルタイム検索システム·Zoie MOONGIFT

    LinkedInは最近4,500万ユーザを突破した世界最大の規模のビジネスSNSだ。SNSというとFacebookに注目が集まるが、LinkedInも様々な試みが行われており非常に興味深いシステムになっている。ZoieはLinkedInの開発した検索エンジンになっている。 シンプルなインタフェース 最近流行のリアルタイム性を取り入れ、実際に彼らのシステムで使われている。そんな実用性の高いシステムがオープンソースになっているのだ。 今回紹介するオープンソース・ソフトウェアはZoie、Apache Luceneをベースにした検索エンジンだ。 ZoieはApache Luceneをベースに開発されておりJavaで作られている。検索対象を追加すると即座に検索結果に反映されるようになっており、インデックスの再構築を待たなくて良い。またそのインデックスの再構築は検索パフォーマンスに影響を与えないように

    LinkedInが開発したリアルタイム検索システム·Zoie MOONGIFT
  • オレオレ検索窓を設置しよう - mixi engineer blog

    まだピクミン2をクリアしてないのでケジメ的に新作ゲームを買えないmikioです。今回は、Tokyo Cabinetを使って激烈簡単に特定サイトの専用の検索機能を設置する方法について説明します。クローリングから検索までを10分くらいの作業で可能にします。 特定サイトの検索エンジン Web全体の検索機能を作るのは、途方もない技術力と設備を持っているGoogleMicrosoftなどのビッグプレーヤでないと難しいのが現実です。でも、自分が気に入っているいくつかのサイトを対象とした検索エンジンを作るのであれば個人だってできます。また、インターネットから手が届かないイントラネットのコンテンツの検索機能は自分達で手がけないと構築できません。 ということで、企業用の検索システムが数多く売られていますし、LuceneやGroongaやHyper Estraierなどのオープンソース製品も世に多数存在しま

    オレオレ検索窓を設置しよう - mixi engineer blog
    tarchan
    tarchan 2009/07/16
    10分で作るオレオレ検索窓
  • Java製のイントラ向け検索エンジン·regain MOONGIFT

    インターネットではあれほど検索エンジンを便利に使いながら、社内向けにはあまり活用されていない。どちらかと言えばファイルサーバをディレクトリで管理する、旧来の検索エンジン型で管理しているのではないだろうか。 日語の検索も可能なイントラ向け検索エンジン 要因は幾つかあるだろうが、検索エンジンの構築が面倒という印象があるのも確かだ。であればregainの手軽さは魅力的にうつるはずだ。 今回紹介するオープンソース・ソフトウェアはregain、Java製の手軽な検索エンジンだ。 regainはJava製の検索エンジンで、regain.jarを実行すればWebサーバも立ち上がってすぐに利用できる。Windows向けにはインストーラーやZipファイルが提供されている。ブラウザで管理画面に入り、検索対象とするディレクトリを指定すればすぐにインデックス化が実行される。 インデックス作成中 検索画面はGoo

    Java製のイントラ向け検索エンジン·regain MOONGIFT
  • 1