タグ

検索エンジンに関するhide0414のブックマーク (9)

  • クローラーを作るためのフレームワーク·Anemone MOONGIFT

    RSSフィードやWeb API、Mashupなどの単語が注目を集める中、Webクローラーを通じて外部のWebサイトにあるデータをかき集め、それを解析して別な形にするというのはよく見られるものになってきた。 あるURLを指定し、そこからリンクされているURLを一覧表示できる そうした数々のシステムの中で、クローラーとなる基盤は大きな違いはない。Webサイトのデータを取得し、次のリンクを洗い出して取得していくようなものだ。そうした共通動作部分を切り出したフレームワークがAnemoneだ。 今回紹介するオープンソース・ソフトウェアはAnemone、Webクローラを開発するためのフレームワークだ。 Anemoneは任意のWebサイトにアクセスし、その内容を解析するWebクローラーだ。例えばあるURLに付けられているリンクを一覧で取得するようなことも簡単にできる。外部サイトなのかどうかも区別できるの

    クローラーを作るためのフレームワーク·Anemone MOONGIFT
  • 連載:検索エンジンを作る|gihyo.jp … 技術評論社

    運営元のロゴ Copyright © 2007-2024 All Rights Reserved by Gijutsu-Hyoron Co., Ltd. ページ内容の全部あるいは一部を無断で利用することを禁止します⁠。個別にライセンスが設定されている記事等はそのライセンスに従います。

    連載:検索エンジンを作る|gihyo.jp … 技術評論社
  • 「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記

    Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「下準備があればこその高性能」なわけです。 インデックスを作成するためには、あらかじめWebページの内容を単語に分割する必要があります。英語では単語と単語の間をスペースで区切るため、この作業はさほど難しくありません。しかし日語では、単語の境界はそれほど自明ではないため、日語特有の処理をする必要があります。 日語の文から単語に分解するには、形態素解析を使う場合と、N-gramを使う場合があり、そ

  • 汎用連想計算エンジン GETA ファミリー

    汎用連想計算エンジンGETA ファミリー   公開 Siteこのページでは, 汎用連想計算エンジンGETA を紹介しています. GETA の実装はいくつかありますが, そのうち公開されているものは現在 2 つあります. 汎用連想計算エンジンGETA ファミリー   公開HP初代 GETA はこちらから配布されています. 最新版は GETA3.2u です.GETAssocGETAssoc は, もうひとつの GETA の実装です. Last Modified Tue Jul 21 14:12 JST 2009

  • [Think IT] 第1回:OSS検索エンジンLuceneとは (1/3)

    「JBoss Enterprise Application Platformの全貌」では全4回にわたって、JBoss Enterprise Middleware全般について解説している。 連載ではJBoss Enterprise Middlewareを使った具体例として「エンタープライズレベルの検索サービス」を提供するWebアプリケーションを取り上げ、試作する。なお、検索エンジンにはオープンソースソフトウェア(以下、OSS)のApache Lucene(以下、Lucene:ルシーン)を使用する。 ここで述べる「エンタープライズレベルの検索(注1)」サービスとは、企業が保有する大量のコンテンツを高速に検索するサービスのこととする。Luceneは小規模(文書数が数万件以下)から大規模(数百万件以上)のコンテンツを高速に検索することを得意としているため、「エンタープライズレベルの検索」に適して

  • 今日の井原. - blog検索エンジン「NAMAAN」の中身

    2008年09月 (1) 2008年05月 (6) 2008年04月 (3) 2008年03月 (4) 2006年10月 (3) 2006年09月 (2) 2006年08月 (5) 2006年07月 (4) 2006年06月 (8) 2006年05月 (7) 2006年03月 (3) 2006年02月 (3) 2006年01月 (6) 2005年12月 (3) 2005年11月 (10) 2005年10月 (23) 2005年09月 (22) 2005年08月 (25) 2005年07月 (22) 2005年06月 (11) 2005年05月 (20) 2005年04月 (13) 2005年03月 (18) 2005年02月 (22) 2005年01月 (3) 2004年12月 (7) 2004年11月 (31) 2004年10月 (4

  • Fooooo | 検索、動画、天気、ニュースが充実のスタートページ

    A startpage with online resources about ホーム, created by Kinza Admin.

    Fooooo | 検索、動画、天気、ニュースが充実のスタートページ
  • Sedue | PRODUCT | 株式会社 Preferred Infrastructure

    Webサービスの裏側では様々なデータが蓄積されており、また企業内ではWord・Excel・メールなどの形でデータが日々増大しています。このデータを単にためておくだけではなく、有効活用するためにはデータからの「情報検索」が必須となります。 この「情報検索」を実現するためには、様々なデータソース(DB, ファイルリポジトリ等)からの柔軟なデータの取り込みと、大規模なデータに対して高速な検索を行うための検索エンジンが、Sedue(セデュー)。 様々な検索ニーズに対応する”統合検索プラットフォーム”です。 蓄積された大規模データから、いかに素早く・簡単に情報を取り出せるかをテーマに製品化、テキストデータの全文検索はもちろん、レコメンデーション(関連文書検索・行動履歴推薦)のための機能も備えています。またデータの取り込みはリアルタイムに行う事が出来ます。 これまでは異なる情報検索ニーズに対して、異な

    Sedue | PRODUCT | 株式会社 Preferred Infrastructure
  • http://homepage3.nifty.com/TaN/prog-image.html

    類似画像検索に関する情報 目的 優れた画像類似検索エンジンを探しています。この手のものは今後重要性を増していくと思うのですが、現在のところ自由に使え、実用的、優れたものを見たことがありません。もし見つかればそれを使うつもりですが、無ければ自分で作ってみようと思っています。もしうまくいけばオープンソースとして公開したいな、と思っています。(画像処理の勉強にもなるし:-) 現在進行中 imgSeekが使いものになりそうなので、現在そのソースコードの一部を使用して、Windowsのコマンドラインで動作するものを作成中! ソフト 画像処理関連のソフトの一覧 ImageMagick 今ではWindows版もある。ImageMagickのわかりやすい紹介 imgSeek 画像管理・Viewer。類似画像検索には multi-resolution wavelet decomposition を使っている

  • 1