タグ

2007年9月24日のブックマーク (3件)

  • Javascriptの基本 [Javascript] All About

    orangehat
    orangehat 2007/09/24
    Ajax基礎
  • 転置インデックス - Wikipedia

    転置インデックス(てんちインデックス、Inverted index)とは、全文検索を行う対象となる文書群から単語の位置情報を格納するための索引構造をいう。転置索引、転置ファイル、逆引き索引などとも呼ばれる。 情報処理テクノロジにおける転置インデックスとは、単語や数字といった内容から、それが含まれているデータベースやドキュメント群へのマッピングを保持するという、インデックス型データ構造である。ドキュメント群へのマッピングの場合、検索エンジンが実現される。転置インデックスファイルは、インデックスというよりはデータベースと呼んだほうがふさわしい場合もある。また、検索キーが単語(文字列)であり、連想配列の値が位置情報である場合、ハッシュテーブルの形態を取ることもある。 転置インデックスには大きく分けて2通りの手法がある。レコード単位転置インデックス(record level inverted in

    orangehat
    orangehat 2007/09/24
    わかりやすい転置インデックス
  • PHP クローラ開発 現在特定のサイトを対象とした検索エンジンをPHPベースに作っています。…

    PHP クローラ開発 現在特定のサイトを対象とした検索エンジンをPHPベースに作っています。指定したサイトからHTMLタグを取り除きコンテンツを取得しデータベースに格納しているのですが、量が多いためDBに負荷がかかってしまいます。 調べるとGoogleDBを使用していないようです。 Googleなどの巨大検索エンジンはもとより価格.comや比較.comなど一般企業のクローラはデータをどのように保存し、管理、検索をかけているのでしょうか? 詳細な情報をお願いいたします。

    orangehat
    orangehat 2007/09/24
    クローラー