[B! algorithm][statistics] j0hnのブックマーク

スペル修正プログラムはどう書くか

Peter Norvig / 青木靖訳先週、2人の友人(ディーンとビル)がそれぞれ別個にGoogleが極めて早く正確にスペル修正できるのには驚くばかりだと私に言った。たとえば speling のような語でGoogleを検索すると、0.1秒くらいで答えが返ってきて、もしかして: spelling じゃないかと言ってくる(YahooやMicrosoftのものにも同様の機能がある)。ディーンとビルが高い実績を持ったエンジニアであり数学者であることを思えば、スペル修正のような統計的言語処理についてもっと知っていて良さそうなものなのにと私は驚いた。しかし彼らは知らなかった。よく考えてみれば、別に彼らが知っているべき理由はないのだった。間違っていたのは彼らの知識ではなく、私の仮定の方だ。このことについてちゃんとした説明を書いておけば、彼らばかりでなく多くの人に有益かもしれない。Googleの

j0hn 2007/04/28

リンク

僻地 - Bayesian Setの種明かし

Bayesian Setとは集合D_Cが与えられたとき、そこから「類推」して、元の集合C⊃D_Cに入る元xを(「自信」の度合いを表す数値つきで)求めるというもの。ただし、D_Cの元やxは特徴データ{c_i}をもっているとする。で、原論文を読むとΓ関数がずらずらでてきておどろおどろしいのだけれど、実はやっていることは簡単だということに気がついたので、書いてみる。簡単のために、特徴はあるかないかの2値的とする。(一般的には連続量も扱える。)すると、Bayesian Setのアルゴリズムがやっていることは、xについて観測された特徴c毎に重みwを足していくだけである。重みwはハイパーパラメーターα、βを使って,と書ける。ハイパーパラメータというと難しいそうだが、α_t = (Nc:D_Cでcをもつ元の数) + α、β_t = (N-Nc:D_Cでcを持たない元の数) + βと定めるので、α、βは先

j0hn 2007/01/13

リンク

Web Communities -Analysis and Construction- (Springer-Verlag） - Cafe Babe

一言で言えば，Webのハイパーリンクの解析についてまとめた本で，たとえば，HITSやPageRankのようにWebページの重要度を判定する方法や，Webページの類似度判定とHierarchical Clustring，Matrix-Based Clustering，Co-Citationなどのクラスタリング手法，そしてWebコミュニティの抽出などについて述べている． Web Communities: Analysis and Construction 作者: Yanchun Zhang,Jeffrey Xu Yu,Jingyu Hou出版社/メーカー: Springer発売日: 2006/01/15メディア: ハードカバー購入: 3人クリック: 44回この商品を含むブログ (3件) を見るこの本が良いのは，たとえばHITS，PageRankと言っても，その関連アルゴリズムをかなり網羅的

j0hn 2006/11/03

リンク

Amazon.co.jp：渋滞学 (新潮選書): 本: 西成活裕

j0hn 2006/10/22

リンク

ACM Sigplan Notices 29, 4 (Apr 1994), 5863.

原文: Thermodynamics and Garbage Collection. ACM Sigplan Notices 29, 4 (Apr 1994), 58–63. Henry G. Baker Nim ble Computer Corporation 16231 Meadow Ridge Way, Encino, CA 91436 (818) 986–1436 (818) 986–1360 (FAX) Copyright (c) 1993 by Nim ble Computer Corporation 日本語訳: 酒井政裕私たちは統計力学の原理とそのストレージ管理の問題への適用について議論します。また、私たちは情報, 状態, 可逆, 保守的といった用語の不正確な用法による問題について指摘します。 A. はじめに計算機科学者は抽象統計熱力学についての知識を持っている

j0hn 2006/09/06

リンク

羊堂本舗脳ざらし紀行 (2006-08-17)

_ 日本語と n-gram でも Zipf の法則は成り立つか Zipf の法則というのは以下のようなものです。英語で書かれた長編小説を用意します(小説でなくてもいいんだけど)。そして、本文中に出てくる英単語を頻度順に並べます。すると、第2位の単語の頻度は第1位の単語の頻度の半分になります。第10位の単語の頻度は第1位の単語の頻度の1/10です。第100位の単語の頻度は第1位の単語の頻度の1/100です。そんな感じの法則です。リンク先にもあるように対数グラフにプロットするときれいな直線になります。さて、Zipf の法則は日本語に対して当てはまるでしょうか。とはいっても、日本語は英語みたいに単語毎に区切ることが簡単ではないので、ここでは n-gram を使います。2文字毎に文を区切って、その2文字を単語だと思って頻度を数えます。ひらがなと漢字だけを対象にしました。日本語のデータとしてはこの

j0hn 2006/08/21

的を得ているがいかにも無粋な突っ込みにがっかり

リンク

はてなブックマーク

タグ

関連タグで絞り込む (3)

algorithmとstatisticsに関するj0hnのブックマーク (6)

お知らせ

今週のはてなブックマーク数ランキング（2025年8月第2週）

今週のはてなブックマーク数ランキング（2025年8月第1週）

月間はてなブックマーク数ランキング（2025年7月）

公式Twitter

キーボードショートカット一覧

はてなブックマーク

公式Twitter

はてなのサービス