Googleアルゴリズムの200の要素を発見しましょう!(Let’s Try to Find All 200 Parameters in Google Algorithm) は2009年に書かれた記事ですが、パンダアップデートが適用された今現在(2011年4月)でも重要項目が多く書かれているもので。 多くはGoogleの特許(合衆国特許出願0050071741)に基づいていますが、筆者のアンが自身の解析結果や予測を盛り込んでいる事で、より実践に近い内容になっています。 SEO初心者の方は、これからのウェブ制作の軸に、SEOエキスパートの方はもう一度自身のサイトを見直す目次として確認してみてはいかがでしょうか。 ドメインに関する13要因 ドメイン年齢 ドメイン取得からの長さ ドメイン登録情報(Who is情報)の表示/非表示 ドメイン種類(サイトレベルドメイン(.com や co.uk) ト
年が明けてもう一ヶ月経ちましたね.岡野原です. 今日はMinHashと呼ばれる手法を紹介します.これは特徴ベクトルの高速な類似検索に利用することができます(クローラーの文脈だとShingleとして知られている). 今や世の中のあらゆる種類のデータが,高次元のバイナリベクトルからなる特徴ベクトルで表されて処理されるようになってきました.例えば文書データであれば文書中に出現する単語やキーワードの出現情報を並べた単語空間ベクトル(Bag of Words)で表し,画像データも,SIFTをはじめとした局所特徴量を並べた特徴ベクトル(とそれをSkecth化したもの)として表せます.行動情報や時系列データも特徴量をうまく抽出する.グラフデータもFast subtree kernels[1]と呼ばれる方法で非常に効率的に特徴ベクトルに変換することができ,グラフの特徴をよく捉えることができるのが最近わかっ
Googleを使って信頼できるサイトからデータを集める方法 に関するライフレシピをご紹介します。nanapi [ナナピ]は、みんなで作る暮らしのレシピサイトです。はじめに 仕事でマーケティング資料を作ったりするときに、必要なのがデータ集めですよね。 しかし、今のインターネットでは情報がありすぎて、情報が集めるのが大変です。そんな時は、Googleで特別なコマンドを使って、絞り込みをしましょう。 信頼できるデータは? まず、信頼できるデータとは何でしょうか? それは「信頼できる機関が出しているデータ」と言えるでしょう。もちろん、捏造や操作がないとは言い切れませんが、それでもよくわからない人が出している調査結果よりも正しい確立は高いですよね。 そこで、以下のようなコマンドを使います。 [検索したいワード] site:go.jp これはどういう意味かというと「go.jp」というドメインのサイトか
あらかじめインデックスを作っておいて,そこから検索してくれるプログラムを作ってみた. 検索エンジンについての勉強などはしていないので,勘で作った. 一応検索はできるが,実用性は無い感じになった. http://github.com/hitode909/newgrep/ 使い方 プログラムを検索対象にするために,あらかじめインデックスを作っておく. % indexer *.rb (1/3) indexing indexer.rb (2/3) indexing model.rb (3/3) indexing searcher.rbこれで,検索コマンドを実行したディレクトリ以下のインデックスされたファイルのインデックスから検索できる. % searcher require /Users/fkd/co/newgrep/indexer.rb 5:require 'model' /Users/fkd/
SimStringという類似文字列検索ライブラリをBSDライセンスでリリースしました.類似文字列検索とは,文字列集合(データベース)の中から,クエリ文字列と似ているものを見つけ出す処理です.コンピュータは,正確に一致する文字列を探すのは得意ですが,表記揺れに出くわすと,途端に対応できなくなります.例えば,「スパゲティ」に対して,レストラン情報などを返すサービスにおいて,「スパゲッティ」や「スパゲティー」などの表記揺れが検索クエリに与えられると,通常のデータベースでは情報を提示することが出来ません.類似文字列検索を用いると,表記揺れが検索クエリに与えられても,「スパゲティ」という既知語を代替クエリとして提案したり,「スパゲティ」の情報をダイレクトに引き出すことができるようになります. 似てる語を探す技術って,文字列処理の基本中の基本で,自然言語処理では当たり前のように使われていてもおかしくな
deruiの日記 id:deruiによるzshの履歴をインクリメンタルに正規表現検索するzshスクリプト。インクリメンタル検索だの絞り込み検索だのと聞いてすぐに飛び付くのがanything脳のサガというもの。 ナイスアイデア!!キーをおすたびに勝手に絞り込まれていくのがanything.elっぽい。 しかし、キーを押すたびに反応してしまうため重すぎるのが唯一の問題である。重さを解消する方法としては以下が考えられる。 キーを押して0.3秒間応答がなければ検索処理を開始する(anything方式) 前回の検索処理の結果から絞り込む(QuickSilver方式) .zsh_historyを高速に履歴検索する専用プログラムを作成し、パイプとかで通信する(コマンド起動がオーバーヘッドの場合) $ wc ~/.zsh_history 85970 342643 3865720 /m/home/rubik
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く