タグ

algorithmとstatisticsに関するj0hnのブックマーク (6)

  • スペル修正プログラムはどう書くか

    Peter Norvig / 青木靖 訳 先週、2人の友人(ディーンとビル)がそれぞれ別個にGoogleが極めて早く正確にスペル修正できるのには驚くばかりだと私に言った。たとえば speling のような語でGoogleを検索すると、0.1秒くらいで答えが返ってきて、もしかして: spelling じゃないかと言ってくる(YahooMicrosoftのものにも同様の機能がある)。ディーンとビルが高い実績を持ったエンジニアであり数学者であることを思えば、スペル修正のような統計的言語処理についてもっと知っていて良さそうなものなのにと私は驚いた。しかし彼らは知らなかった。よく考えてみれば、 別に彼らが知っているべき理由はないのだった。 間違っていたのは彼らの知識ではなく、私の仮定の方だ。 このことについてちゃんとした説明を書いておけば、彼らばかりでなく多くの人に有益かもしれない。Google

  • 僻地 - Bayesian Setの種明かし

    Bayesian Setとは集合D_Cが与えられたとき、そこから「類推」して、元の集合C⊃D_Cに入る元xを(「自信」の度合いを表す数値つきで)求めるというもの。ただし、D_Cの元やxは特徴データ{c_i}をもっているとする。で、原論文を読むとΓ関数がずらずらでてきておどろおどろしいのだけれど、実はやっていることは簡単だということに気がついたので、書いてみる。簡単のために、特徴はあるかないかの2値的とする。(一般的には連続量も扱える。)すると、Bayesian Setのアルゴリズムがやっていることは、xについて観測された特徴c毎に重みwを足していくだけである。重みwはハイパーパラメーターα、βを使って,と書ける。ハイパーパラメータというと難しいそうだが、α_t = (Nc:D_Cでcをもつ元の数) + α、β_t = (N-Nc:D_Cでcを持たない元の数) + βと定めるので、α、βは先

  • Web Communities -Analysis and Construction- (Springer-Verlag) - Cafe Babe

    一言で言えば,Webのハイパーリンクの解析についてまとめたで,たとえば,HITSやPageRankのようにWebページの重要度を判定する方法や,Webページの類似度判定とHierarchical Clustring,Matrix-Based Clustering,Co-Citationなどのクラスタリング手法,そしてWebコミュニティの抽出などについて述べている. Web Communities: Analysis and Construction 作者: Yanchun Zhang,Jeffrey Xu Yu,Jingyu Hou出版社/メーカー: Springer発売日: 2006/01/15メディア: ハードカバー購入: 3人 クリック: 44回この商品を含むブログ (3件) を見る このが良いのは,たとえばHITS,PageRankと言っても,その関連アルゴリズムをかなり網羅的

    Web Communities -Analysis and Construction- (Springer-Verlag) - Cafe Babe
  • Amazon.co.jp: 渋滞学 (新潮選書): 本: 西成 活裕

    Amazon.co.jp: 渋滞学 (新潮選書): 本: 西成 活裕
  • ACM Sigplan Notices 29, 4 (Apr 1994), 5863.

    原文: Thermodynamics and Garbage Collection. ACM Sigplan Notices 29, 4 (Apr 1994), 58–63. Henry G. Baker Nimble Computer Corporation 16231 Meadow Ridge Way, Encino, CA 91436 (818) 986–1436 (818) 986–1360 (FAX) Copyright (c) 1993 by Nimble Computer Corporation 日語訳: 酒井 政裕 私たちは統計力学の原理とそのストレージ管理の問題への適用について議論します。 また、私たちは 情報, 状態, 可逆, 保守的 といった用語の不正確な用法による問題について指摘します。 A. はじめに 計算機科学者は抽象統計熱力学についての知識を持っている

  • 羊堂本舗 脳ざらし紀行 (2006-08-17)

    _ 日語と n-gram でも Zipf の法則は成り立つか Zipf の法則というのは以下のようなものです。英語で書かれた長編小説を用意します(小説でなくてもいいんだけど)。そして、文中に出てくる英単語を頻度順に並べます。すると、第2位の単語の頻度は第1位の単語の頻度の半分になります。第10位の単語の頻度は第1位の単語の頻度の1/10です。第100位の単語の頻度は第1位の単語の頻度の1/100です。そんな感じの法則です。リンク先にもあるように対数グラフにプロットするときれいな直線になります。 さて、Zipf の法則は日語に対して当てはまるでしょうか。とはいっても、日語は英語みたいに単語毎に区切ることが簡単ではないので、ここでは n-gram を使います。2文字毎に文を区切って、その2文字を単語だと思って頻度を数えます。ひらがなと漢字だけを対象にしました。日語のデータとしてはこの

    j0hn
    j0hn 2006/08/21
    的を得ているがいかにも無粋な突っ込みにがっかり
  • 1