ホームページビルダーやFrontPageなどで作られたWEBサイトだけを見つける検索エンジン「つくし」
ウィリアムのいたずらが、街歩き、食べ物、音楽等の個人的見解を主に書くブログです(たま~にコンピューター関係も) ちょっと本整理してたら、学会誌の「情報処理」(論文誌でない、はでな表紙のほう)の2005年9月号がでてきて、そこに「特集 検索エンジン2005 -Webの道しるべ-」とあって、検索エンジン(Googleとか)の仕組みについてかいてありました。 おお、勉強になりそうなので、ちょっとメモメモ ■検索エンジンは3つの部分に分かれている 検索エンジンは、 ・クローラ部(Webロボット) ・インデクサ部 ・検索部 にわかれている。 ■インデクサ部 入力:Webページ 出力:(web情報の)リポジトリ 役目: ・複数クローラによる分散・協調収集 ・インデクサにおけるURL抽出によって発見された新規URLの収集 ・再収集処理 仕組み: (1)起点として設定されたWebページを収集 (2)(1)
筑波大学は3学期制で,12月1日から3学期が始まりました.3学期には私が担当している学類生(普通の大学の学部生)3年生向けの実験があります.約3ヶ月を掛けて,ほどほどの規模のプログラム作成を行います.私が作り,担当しているプログラム実験は「Webサーチエンジン」といいまして,テキストはこちらに公開しています. この実験,結構,自信作なんです.Javaの基本的なプログラミングができることだけを仮定して,漏れのない全文検索を行うWebサーエンジンを作ります.Webデータ収集を自動的に行うクローラー付き.Googleのようなページランキング機能はありませんが,一応,サーチエンジンの基本機能を備えます.自慢は,このテキストが実質A4で印刷して2ページくらいであること.数学の小問を解いていくように,順番に小問を解いていくと,最後にはWebサーチエンジンができます. ミソはサフィックス・アレイ(suf
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く