タグ

関連タグで絞り込む (2)

タグの絞り込みを解除

algorithmと検索エンジンに関するlizyのブックマーク (2)

  • Googleはどうやってオリジナル記事とコピー記事を判別するのか

    [レベル:全員] 複数のサイトに同じコンテンツが存在した場合、Googleは何を手がかりにしてオリジナルを判断しているのでしょうか。 GoogleのMatt Cutts(マット・カッツ)氏が回答しました。 そのコンテンツが最初にどこで書かれたか、どこで現れたかを見極めるための新しいアルゴリズムを書いたり新しい方法を見つけたりしながら時間とともに変わってきている。 僕たちが使っていそうだと考えられるシグナルをいくつか紹介しよう。 たとえば、Googleがウェブでそのコンテンツが初めて現れたのを見た時間と場所だ。 キミが何かを書いて公開したら、僕たちはそれをクロールしてコンテンツをぜんぶ見る。もし2年後に、どこか別の場所で同じ記事が現れたとしたら、2年前に見たものが発信元の可能性が高いだろう。 ブログやCMSを使っているならPingを打つことができる。WordPressやBolggerなど多く

    Googleはどうやってオリジナル記事とコピー記事を判別するのか
  • 検索エンジンはいかにして動くのか?:第3回 転置索引とは何か?|gihyo.jp … 技術評論社

    はじめに 前回までは、検索エンジンの概要を見てきました。今回からは、全文検索の中核となる索引構造について見ていきます。 第1回の復習になりますが、全文検索には主に2種類の方法がありました。検索したいデータに対して前処理をせず、検索時に文書を走査するgrep型と、あらかじめ索引を作っておいて検索時にその索引を利用する索引型です。今回から数回にわたり、索引型において最も普及している転置索引という索引構造について解説していきます。 転置索引とは さて、転置索引とは何なのでしょうか? 身近な所で例にあげると、書籍(専門書など)の巻末にある索引は、における転置索引といえます。巻末には通常、キーワード(単語)とそのキーワードが出てくるページが記載されています。キーワードはアイウエオ順やアルファベット順に並べられているので、探したいキーワードを簡単に見つけることができ、そのキーワードがどのページで言及

    検索エンジンはいかにして動くのか?:第3回 転置索引とは何か?|gihyo.jp … 技術評論社
  • 1