タグ

技術と検索に関するhighcampusのブックマーク (3)

  • Google、次世代検索エンジン「Caffeine」導入 インデックスの更新がより早く

    Googleは6月8日、次世代検索エンジン「Caffeine」を全世界で導入した。これまでよりも検索インデックスの更新が早くなるという。 Caffeineは従来の検索インデックスとは異なる構造をしているため更新が早く、検索結果が「従来より50%新しい」とGoogleは述べている。従来の検索インデックスは複数のレイヤーで構成されており、メインのレイヤーは数週間おきに更新されていた。レイヤーを更新するためには、Web全体の解析しなければならないため、Webページが検索インデックスに反映されるまでに時間がかかっていた。CaffeineではWebを小さな部分に分けて解析し、検索インデックスを絶えずアップデートしているため、新しいWebページや、既存のページの新しい情報を発見したときにそのままインデックスに追加できるという。 Caffeineは処理能力も拡大しており、1秒間に数十万ページを並行して

    Google、次世代検索エンジン「Caffeine」導入 インデックスの更新がより早く
  • はてなブックマーク全文検索機能の裏側

    そろそろ落ち着いて来たころ合いなので、はてなブックマーク全文検索機能の裏側について書いてみることにします。 PFI側は、8月ぐらいからバイトに来てもらっているid:nobu-qと、id:kzkの2人がメインになって進めました(参考: 制作スタッフ)。数学的な所は他のメンバーに色々と助言をしてもらいました。 はてな側は主にid:naoyaさんを中心に、こちらの希望や要求を聞いて頂きました。開発期間は大体1〜2か月ぐらいで、9月の上旬に一度id:naoyaさんにオフィスに来て頂いて合宿をしました。その他の開発はSkypeのチャットで連絡を取りながら進めてました。インフラ面ではid:stanakaさん、契約面ではid:jkondoさん、id:kossyさんにお世話になりました。 全文検索エンジンSedue 今回の検索エンジンはSedue(セデュー)という製品をベースにして構築しています。Sedu

    はてなブックマーク全文検索機能の裏側
  • 「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記

    Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「下準備があればこその高性能」なわけです。 インデックスを作成するためには、あらかじめWebページの内容を単語に分割する必要があります。英語では単語と単語の間をスペースで区切るため、この作業はさほど難しくありません。しかし日語では、単語の境界はそれほど自明ではないため、日語特有の処理をする必要があります。 日語の文から単語に分解するには、形態素解析を使う場合と、N-gramを使う場合があり、そ

    highcampus
    highcampus 2008/05/04
    こういう分野に役立つっていうことを、もっと大学文学部とか文法研究者はアピールした方がいいと思うんだよ。僕も大学の日本語学には興味あったけど、実学じゃないなーと思って違う学部に行ったし。
  • 1