タグ

検索エンジンと検索に関するat_homeのブックマーク (2)

  • [Think IT] 第1回:OSS検索エンジンLuceneとは (1/3)

    「JBoss Enterprise Application Platformの全貌」では全4回にわたって、JBoss Enterprise Middleware全般について解説している。 連載ではJBoss Enterprise Middlewareを使った具体例として「エンタープライズレベルの検索サービス」を提供するWebアプリケーションを取り上げ、試作する。なお、検索エンジンにはオープンソースソフトウェア(以下、OSS)のApache Lucene(以下、Lucene:ルシーン)を使用する。 ここで述べる「エンタープライズレベルの検索(注1)」サービスとは、企業が保有する大量のコンテンツを高速に検索するサービスのこととする。Luceneは小規模(文書数が数万件以下)から大規模(数百万件以上)のコンテンツを高速に検索することを得意としているため、「エンタープライズレベルの検索」に適して

  • クローラーとは/検索エンジンの仕組みをおさらい。クローラー対策とステータスコード | エンジニアのためのSEO入門

    クローラー:HTTPプロトコルでコンテンツを取得する あなたの運営しているサーバーを含めた世界中のWebサーバーと通信し、そのサーバー内のコンテンツを取得していきます。通信手段はHTTP/HTTPSプロトコルなので、HTTP/HTTPSで取得できるものは、なんでも持っていきます(テキストファイル、CSSファイル、JavaScriptファイル、画像、Flash、PDFなど)。 インデクサ:取得したコンテンツを解析し保存する 取得したコンテンツの内容を解析します。ここで取得したコンテンツのキーワードやテーマを分析して読み取り、分析結果とそのファイル自体をデータベースに保存(インデックス)します。 クエリサーバー:ユーザからの検索クエリ(キーワード)の結果ページを返す ユーザの検索キーワードに基づき、保存してあった解析結果を検索結果ページとして作成し、表示します。SEOの結果が反映される部分にな

    クローラーとは/検索エンジンの仕組みをおさらい。クローラー対策とステータスコード | エンジニアのためのSEO入門
  • 1