タグ

関連タグで絞り込む (1)

タグの絞り込みを解除

webとcrawlerに関するitengineerのブックマーク (1)

  • GoogleがHTMLフォームの送信先もインデックスすると発表 | 秋元@サイボウズラボ・プログラマー・ブログ

    張られているリンクをより多く見つける目的で、GooglebotにHTML Formを送信させて出てきたページもクロールさせる、という発表があった。 JavascriptやFlashの中から他ページへのリンクを抽出するというのは既に実施していて、今回はそれをページ上の入力フォームにも拡大するものだということ。いわゆるディープウェブ、見えないウェブといわれる領域への進出だ。 クロールされるフォームは以下のようなものに限定されるようだ。 GETメソッドであること robot.txtなどで除外指定されていないこと passwordフィールドを持たないこと user, id, accountなどのフィールドを持たないこと これらを満たすフォームに対して、クローラはいくつか適当な文字を入れてフォームを実行し、その結果新しいリンクが現れたらその先もクロール対象にする、ということ。 この方法で見つかったリ

    itengineer
    itengineer 2008/04/14
    GETもPOSTもコワイ><
  • 1