タグ

2010年4月16日のブックマーク (6件)

  • [NLP][機械学習] 言語モデル覚え書き - tsubosakaの日記

    この文章について 最近言語モデル方面にも少し興味があるので自分の知識を整理する意味で書いてみた。NLPは専門ではないので、おかしなことを書いてある可能性がありますがその場合はご指摘ください。 文章ではn-gramモデル、単語の出現確率がn-1個前の単語のみに依存するモデルを考える。 問題 who is * という文が与えられたときに*にくる文字の確率を求めることを考える。この場合だと*には例えばheが当てはまるかもしれないが, isが入ることはまずなさそうに思える。このことは文法的にも説明ができると思うが、文法のルールを作るのは大変だし、文法的に正しい単語の中でどれが出やすいかということはできない。 一方で機械学習を使った言語モデルの文脈では文法的知識を余り持たず、与えられたコーパスから自動的に出やすい単語/表現を学習する方針をとる。 最尤推定 一番簡単なモデルとしては最尤推定を使うもの

    [NLP][機械学習] 言語モデル覚え書き - tsubosakaの日記
  • ネコに関する17個の知っておいて損はない豆知識

    世界中でペットとして広く飼われているイエネコ。自由気ままで愛くるしい姿で多くの人を魅了し続けるネコですが、そんなネコに関して知っておくべき17個のことがあるそうです。 「なぜ運動神経がいいのに車にひかれてしまうのか」などの謎が分かるなど、ほかの人にちょっと教えたくなるような豆知識的な内容が多く含まれています。 詳細は以下より。 17 Things Worth Knowing About Your Cat - The Oatmeal ネコ - Wikipedia 1.の前足には指が5つあるが、後ろ足には4つしかない。 ネコは前足と後ろ足で指の数や肉球の配置が異なっています。多指症という奇形が頻繁に見られ、後肢に5、あるいは前肢に6というようなネコもよく見られるそうです。ちなみに前肢・後肢に7づつ、合計28の指を持つネコがギネスブックに記載されています。 2.イエネコの起原は古代エジ

    ネコに関する17個の知っておいて損はない豆知識
  • https://jp.techcrunch.com/2010/04/15/20100414google-rolls-out-twitter-timelines-in-realtime-search/

    https://jp.techcrunch.com/2010/04/15/20100414google-rolls-out-twitter-timelines-in-realtime-search/
  • 新人技術者に贈るネットを理解する為の教科書5冊 - アンカテ

    皆さんが社会の中心になる15年後には、今存在しない会社が一位で、おそらく今存在しない業務をしている 先日公開したスピーチのメモのこの部分にたくさんの人から言及をいただきました。 私もこれが、今から仕事をする人に一番強調しておくべきことではないかと自分でも思っています。 今、ネットを引っぱっている企業の多くは、15年前には生まれてない会社です。唯一の例外は、1977年に創業したアップルですが、これも、今のアップルは、一度会社を追われ97年に復帰したスティーブ・ジョブズが、その時点で改めて創業し直したと見てもいいような気がします。iPodが作られたのはその後です。 ネットの進化する速度は、どんどんスピードアップしていますから、ここまでの15年と比較して、これからの15年の進化がゆるやかになるとは思えません。15年後にこの世界を率いている企業は、これから生まれる企業になるというのは、過激な極論で

    新人技術者に贈るネットを理解する為の教科書5冊 - アンカテ
  • Feature Sets | WEBSPAM-UK2007 | Datasets | Web Spam Detection

    Location: Web Spam Detection > Datasets > WEBSPAM-UK2007 > Feature Sets Pre-computed feature sets These per-host feature sets are provided to encourage participation on the Web Spam Challenge 2008. They are also available in Matlab and ARFF (for weka) format. In the data the host IDs are assigned in the same ordering as in the uk-2007-05.hostnames.txt.gz file. The collection contains 114,529 diffe

  • Information Retrieval - The MIT Press