私が担当しているITproのページの一つに,検索ページがある。以前紹介したことがあるが,ITproではサイト内検索エンジンの一つとしてGoogle検索アプライアンス(以下,GSA)を利用している。各ページの右上の検索窓から検索した場合や,詳細検索ページからの検索が,それに当たる。私が検索ページの担当になって1年余りたち,これまで,そしてこの2008年7月のリニューアルに向けていくつか改善を行ってきた。その作業の中で,GSAの良い点や悪い点,工夫が必要な点が見えてきた。 検索の高速性が最大の魅力 最初に,GSAの良い点から挙げておこう。私が感じたのは,大きく三つ。(1)検索が高速,(2)簡単な設定でとりあえず導入できる,(3)検索対象の設定の自由度が高い---である。 その中で最大の魅力と思っているのが,(1)の「検索が高速」であることだ。これまで,何らかの障害が発生したとき以外は,検索キー
最近、「Introduction to Information Retrieval」というStanfordの大学院向け教科書のドラフトを読んでいます。id:naoyaあたりが勉強会で読んでいる教科書です。この教科書には、効率のいい全文検索システムを作るにはどうすればいいか、という(まさに)教科書的手法が網羅的に書いてあり、そのあたりに興味がある人には、非常に興味深く読めるお勧めの本です。 ただ、面白い面白いと言っているだけでは、エンジニアとしては価値半減ですので、GW中にrubyで一日かけて実装してみました。 さすがに実装は、一日で作ったものですから、非常に素朴です。マルチバイト文字はbi-gramで、シングルバイトはスペースなどの区切り記号で認識しています。インデックスは、rubyの処理系のHashやArrayで保持しており、外部にMarshallで書き出す、というものです。検索エンジン
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く