タグ

検索エンジンに関するtarbrickのブックマーク (5)

  • DMCAとは/あなたの著作物をパクったサイトをGoogle八分に追いやる正しい手順 | 初代編集長ブログ―安田英久

    今日はいつもと少し視点を変えて、自分のコンテンツをパクったサイトがあった場合に、そのサイトが検索エンジンで表示されないようにする手順を紹介します。しかも、グーグル公式の方法で、DMCA(デジタルミレニアム著作権法)に基づく正式な方法です。 サイトのコンテンツがパクられた!世の中には、他人の著作物を盗用することに一切の罪の意識をもたない人も多数います。そのため、あなたのサイトのコンテンツを(自動的にまたは手動で)コピーして別のサイトを作り人がいないとは限りません。特に、あなたのサイトが人気を集めていて、RSSフィードを提供していればなおさらです。 そして、場合によってはあなたのサイトのコンテンツを盗用した悪質なサイトが、検索エンジンであなたのサイトよりも上位に表示されてしまう場合もあるでしょう。 最近のグーグルは重複コンテンツの扱いがうまくなっており、同じコンテンツが複数の場所で掲載されてい

    DMCAとは/あなたの著作物をパクったサイトをGoogle八分に追いやる正しい手順 | 初代編集長ブログ―安田英久
  • はてなブックマークのSEO手法はスパムか? ::SEM R (#SEMR)

    はてなブックマークのSEO手法はスパムか? はてなブックマークのクローラ向けにURLに日語キーワードを入れる行為は全く問題なし。 公開日時:2009年06月10日 01:18 はてなブックマークのやりすぎちゃったかもしれないSEO (ぼくはまちちゃん) 2000年頃まで流行していた、スパム的なクローキングというのを見たことがない人が多いでしょうから、この手のものを誤解する人が多いのも仕方ありません。しかし、はてなのケースは全く問題ありません。そもそも、クローラがアクセスしているURLを人間もアクセス可能ですから、この時点でもうクローキングうんうんの話ではないのですよ。 たとえば、次のURLはGoogleにインデックスされた文字列ですが、人間がクリックしてもクローラが見たコンテンツと同じものが表示されますので不利益はありません。 http://b.hatena.ne.jp/entry/88

    はてなブックマークのSEO手法はスパムか? ::SEM R (#SEMR)
  • Googleは1つの検索クエリーに対し、1000台のマシンを使って0.2秒で処理している

    検索したいフレーズを入れれば即座に結果を返してくれるあのGoogleですが、その1フレーズを処理するため、実に1000台ものサーバを使い、わずか0.2秒で超高速処理していることが、WSDM 2009にて明らかになりました。基調講演を行ったのはGoogleフェローであるJeff Dean氏で、2008年6月における「Google I/O」カンファレンスでは700~1000台のサーバで0.5秒以下の時間がかかると言っていましたが、今回の講演ではユーザーの気づかないところでGoogleは着実に進化し続けていることも明らかになりました。 知られざるGoogleの裏側の最新情報は以下から。 Geeking with Greg: Jeff Dean keynote at WSDM 2009 Single Google Query uses 1000 Machines in 0.2 seconds まず

    Googleは1つの検索クエリーに対し、1000台のマシンを使って0.2秒で処理している
  • 全文検索エンジンgroongaをテストリリースしました。 - グニャラくんのグニャグニャ備忘録@はてな

    全文検索エンジンのgroongaをテストリリースしました。 groonga 日開催された、key-value store勉強会で発表させていただきました。 今まで、Sennaには Tritonn経由で使った場合、MySQL側のインデックスとの併用が難しく、Senna来のパフォーマンスが発揮できなかった。 従来のインターフェースでは、トークナイザの切り替えなどの柔軟性がなかった。 といった問題がありました。 groongaは、それに対する返答です。 自分でデータベース書けばいいんじゃね? 柔軟なAPI用意すればいいんじゃね? ってことですね。 データベースは、key-valueストアを組み合わせたcolumnストア的な感じになっています。 詳細については、今後別エントリやドキュメントで述べます。 今後は、Sennaはバグ修正のみ行うメンテナンスモードに移行します。 実際使ってみよう 今回

    全文検索エンジンgroongaをテストリリースしました。 - グニャラくんのグニャグニャ備忘録@はてな
  • 「Googleを支える技術」に載っていない日本語検索エンジンの技術 - nokunoの日記

    Web検索エンジンは、大きく分けて次の2つからなります。利用者からのクエリーを直接受ける検索サーバ検索サーバから利用されるインデックス世界中のWebサイトを集めてきて解析し、インデックスに登録するクローラインデックスというのは、利用者から検索される単語をあらかじめ列挙しておいて、単語からWebサイトのURLを引くのに必要なデータ構造のことです。検索エンジンはGoogleを支える技術にあるように、「下準備があればこその高性能」なわけです。 インデックスを作成するためには、あらかじめWebページの内容を単語に分割する必要があります。英語では単語と単語の間をスペースで区切るため、この作業はさほど難しくありません。しかし日語では、単語の境界はそれほど自明ではないため、日語特有の処理をする必要があります。 日語の文から単語に分解するには、形態素解析を使う場合と、N-gramを使う場合があり、そ

  • 1