張られているリンクをより多く見つける目的で、GooglebotにHTML Formを送信させて出てきたページもクロールさせる、という発表があった。 JavascriptやFlashの中から他ページへのリンクを抽出するというのは既に実施していて、今回はそれをページ上の入力フォームにも拡大するものだということ。いわゆるディープウェブ、見えないウェブといわれる領域への進出だ。 クロールされるフォームは以下のようなものに限定されるようだ。 GETメソッドであること robot.txtなどで除外指定されていないこと passwordフィールドを持たないこと user, id, accountなどのフィールドを持たないこと これらを満たすフォームに対して、クローラはいくつか適当な文字を入れてフォームを実行し、その結果新しいリンクが現れたらその先もクロール対象にする、ということ。 この方法で見つかったリ