タグ

SEOとITmediaに関するtamaotのブックマーク (2)

  • 次世代Google検索エンジンについて、サイト管理者が知るべき10のこと

    Googleは8月10日に新しい検索システム「Caffeine」をテスト公開し、世界中の検索ユーザーの注目を集めた。 Googleは自社の検索アルゴリズムを絶えず調整している。ほとんどの場合、マイナーチェンジが特定の組織のPageRankに影響することはない。だがCaffeineでは、検索結果がこれまでとは異なっている。 新しいコンセプトの導入で、検索結果の多様性が大きく変わった。かつて検索結果の上位に表示されていたサイトは転落した。その一方で、下位のサイトの中には、Caffeineではランクが上がったところもある。 例えば、「tech技術)」という言葉を検索してみると、現行のGoogleの検索結果ページでは、Web2.0ブログのTechCrunchが2番目に表示される。Caffeineでは同サイトは3番目になる。その一方で、現行版GoogleではTechCrunchのはるかに下にある

    次世代Google検索エンジンについて、サイト管理者が知るべき10のこと
  • 2008年、Webは文字列解析で変わっていく

    前回は、Perlモジュールである「Web::Scraper」を使ったスクレイピングについて説明した。Webページ(HTML)は、「構造」と「デザイン」面で比較的分離が進んできたため、CSSセレクタによるスクレイピングが有効であることが分かったはずだ。 今回の最終回では、コンテンツの自動収集と統計手法について考えてみよう。 記事内で扱っていくのは、幾つかのコンテンツをたどって、「利用頻度の高い語句を集め、話題となっているキーワードを見つけよう」というものだ。 話題のキーワードを集める手法 近年ブログのポータル上などでは、話題となっているキーワードを「利用頻度に応じたフォントサイズ」で示し、クリックすると該当の記事一覧が表示されるという仕組みが実装されているものが多い。 オルタナティブ・ブログにも似たようなものとして「話題のキーワード」が見られる。キーワードをクリックすると、Googleによる

    2008年、Webは文字列解析で変わっていく
    tamaot
    tamaot 2007/12/29
    [Web::Scraper][スクレイピング][タグクラウド]
  • 1