タグ

ブックマーク / www.geek.sc (2)

  • マルコフ連鎖と日本語形態素解析によるワードサラダSEO

    マルコフ連鎖とは マルコフ連鎖は未来の挙動が現在の値だけで決定され、過去の挙動と無関係であることを利用した確率統計モデルです。定義としては次のような形を取ります。 マルコフ連鎖は、一連の確率変数 X1, X2, X3, … で、現在の状態が決まっていれば、過去および未来の状態は独立であるものである。形式的には、 であるような過程をいう。一般の、時間的に均一でないマルコフ連鎖は、この等式を満たさない。(Wikipedia:「マルコフ連鎖」より) はい、難しい数式が出てきましたね。私もこの中身は完全には理解していません。しかし、このマルコフ連鎖を使うと、現在のデータを一定の出現率で並び替えるアルゴリズムを作成することも可能という事を憶えておいてください。実はGoogleのページランクアルゴリズムなどにもマルコフモデルが応用されています。 日形態素解析とは 日語は単語と助詞を中心に、日

    マルコフ連鎖と日本語形態素解析によるワードサラダSEO
    michael26
    michael26 2017/02/28
  • 大手サイトのrobots.txtでわかる「検索でヒットされたくないページ」の特徴

    robots.txtとは robots.txtは、検索エンジンのクローラー(bot)に、クロールされたいページや、クロールされたくないページを教えるテキストファイルのことです。多くの検索エンジンのクローラーは、そのドメインの最上位ディレクトリに設置されたrobotst.txtを最初に読み込んで、クロールするべきページとクロールするべきでないページを取得し、それに基づいて巡回します。ただ、一部のクローラーには、このrobots.txtを無視するものもあります。 robots.txtの書き方はおよそ以下の通りです。 User-agent:(ここにbotのユーザーエージェントを記述。ワイルドカード指定も可能) Crawl-Delay:(クロールの時間間隔を指定) Disallow:(クロールされたくないページやディレクトリを指定) Allow:(Disallowで指定されたディレクトリの小階層で

    大手サイトのrobots.txtでわかる「検索でヒットされたくないページ」の特徴
  • 1