[B! 資料][algorithm] niamのブックマーク

niam id:niam

資料とalgorithmに関するniamのブックマーク (9)

DO++ : 部分文字列の話
ここしばらく、部分文字列の統計量を利用した機械学習やデータマイニングをやっている。そこの話からちょっと抜粋。長さnの文字列T[1,...,n]が与えられた時、T中に出現する部分文字列T[i...j] (1≦i≦j≦n）の数はn個の中からiとjの2箇所を選ぶのでO(n^2)個ある。例えば、n=10^6(1MB)だったら、部分文字列の数は約10^12個(1T)と非常に大きい。しかし、これらの部分文字列の出現位置は同じである場合が多い。例えばT="abracadabra"であれば、"abra"と"abr"の出現場所は1番目と8番目であり、全く同じである。では出現位置（部分文字列の左端を出現位置とする）が全く同じであるような部分文字列をまとめてグループにした場合、グループの数はいくつになるのだろうか。これは接尾辞木（wikipedia 授業の資料）を知っているなら簡単に説明できる。 Tに対
niam 2009/04/27
*あとで読む

research

mustread

Algorithm

資料

まとめ
リンク
latent Dirichlet allocation - 機械学習の「朱鷺の杜Wiki」
latent Dirichlet allocation (LDA)† probabilistic latent semantic analysis (pLSA) を改良した，文書集合の生成モデル．各文書は，\(k\)個の話題に応じて発生した語で構成されている．以下の過程で，文書に含まれる\(N\)個の語を生成する． \(N\sim\mathrm{Poisson}(\xi)\) … Poisson分布で語数を生成 \(\theta\sim\mathrm{Dir}(\alpha)\) … Dirichlet分布で，\(k\)個の話題を生成するモデルのパラメータを生成． \(N\)個のそれぞれの語\(w_n\)について (a) \(z_n\sim\mathrm{Multinomial}(\theta)\) … 多項分布で話題を生成 (b) 語\(w_n\)を，話題\(z_n\)で条件付けした分
niam 2009/04/19
nlp

mustread

algorithm

*あとで読む

資料
リンク
LZ77圧縮
じゅげむじゅげむごこうのすりきれかいじゃりすいぎょのすいぎょうまつうんらいまつふうらいまつくうねるところにすむところやぶらこうじのぶらこうじぱいぽぱいぽぱいぽのしゅーりんがんしゅーりんがんのぐーりんだいぐーりんだいのぽんぽこぴーのぽんぽこなーのちょうきゅうめいのちょうすけ符号辞書幅(Byte) ■英数字 ■英数字+記号 ■ASCII ■ASCII+半角カナ1 ■ASCII+半角カナ2 ■原型 ■16進数用1 ■16進数用2 ■16進数用3その他の設定 \uF8F0-\uF8F3を使わない連長圧縮しない仕様任意の文字列を190種類程度の半角文字で表現します.使用する文字は以下から選択.1～5番目までは圧縮率が高まっていく傾向にあります.Byte数は文字CodeをShift-JISと見なして算出 [英数字]任意の文字列を英数字のみからなる文字列[0-9A-Za-z_]に変換します
niam 2009/04/06
資料

Algorithm

データ圧縮
リンク
マルコフ情報源のエントロピー
マルコフ情報源のエントロピー Entropy of Markov source ホーム情報通信のハイパーテキストは下記へ移動しました。 http://www.mnc.toho-u.ac.jp/v-lab/ お探しの内容は、下記の目次にあります。 http://www.mnc.toho-u.ac.jp/v-lab/yobology/index.htm
niam 2009/04/06
Algorithm

資料

research

mustread
リンク
Python でグラフ・(疎)行列計算するためのライブラリを紹介するよ - 武蔵野日記
PageRank とか HITS といったリンク解析ではグラフの計算が頻発するのだが、Python でそのあたり書くときの話をまとめてみる。グラフは行列で表現できる(ノード×ノード次元の行列 A を考えて、ノード i からノード j にエッジがあるとき、A[i,j] に値を入れておけばよい。無向グラフのときは A[i,j] = A[j,i] なので対称行列になる)ので、要は行列を手軽に扱えるライブラリの紹介である。実は Python の行列演算ライブラリはどれも lapack/blas を内部的に呼んでいるので、C/C++ 等と比較してもそんなに遅くない。それどころか、自動的に並列化できるところは並列化してくれたりするので、まれに C より速いこともあるらしい。特に巨大なグラフを作る場合、ほとんどの処理は C などで書かれた関数に飛ぶので、速度的な問題は無視してもいいくらいである(逆に、
niam 2009/04/04
Algorithm

資料

まとめ

research

mustread

*あとで読む
リンク
最大マージン kNN と SVM の関係: kNN も最近はがんばっています - 武蔵野日記
先日書いた機械学習における距離学習の続き。 kNN (k-nearest neighbour: k 近傍法)は Wikipedia のエントリにも書いてある通り、教師あり学習の一つで、あるインスタンスのラベルを周辺 k 個のラベルから推定する手法。memory-based learning と呼ばれることもある。単純に多数決を取る場合もあれば(同点を解決する必要があるが)、近いインスタンスの重みを大きくする場合もあるのだが、いずれにせよかなり実装は単純なので、他の機械学習との比較(ベースライン)として使われることも多い。簡単なアルゴリズムではあるが、1-NN の場合このアルゴリズムの誤り率はベイズ誤り率(達成可能な最小誤り率)の2倍以下となることが示されたり、理論的にもそれなりにクリアになってきているのではないかと思う。また、多クラス分類がちょっと一手間な SVM (pairwise に
niam 2009/04/04
*あとで読む

Algorithm

research

mustread

資料
リンク
最長共通部分列問題 (Longest Common Subsequence) - naoyaのはてなダイアリー
部分列 (Subsequence) は系列のいくつかの要素を取り出してできた系列のことです。二つの系列の共通の部分列を共通部分列 (Common Subsecuence)と言います。共通部分列のうち、もっとも長いものを最長共通部分列 (Longest Common Subsequence, LCS) と言います。 X = <A, B, C, B, D, A, B> Y = <B, D, C, A, B, A> という二つの系列から得られる LCS は <B, C, B, A> で、その長さは 4 です。長さ 2 の<B, D> の長さ 3 の <A, B, A> なども共通部分列ですが、最長ではないのでこれらは LCS ではありません。また、LCS は最長であれば位置はどこでも良いので、この場合 <B, D, A, B> も LCS です。 LCS は動的計画法 (Dynamic Prog
niam 2009/04/02
Algorithm

資料

NLP
リンク
文字列探索スターターキット - シリコンの谷のゾンビ
最近重点的に勉強しているので，これまで集めた教科書情報，資料等へのリンクをまとめてみる．紹介している教科書はほとんど読んでいないので妄言注意．この他にお薦め教科書，勉強法があればぜひ教えてください．文字列探索は検索対象テキストの中から転置インデクスのような外部データ構造を利用せずに目的の文字列を探索する課題です．文字列探索，文字列照合，パターンマッチなどとも呼ばれています（一番オーソドックスな呼び方はなんでしょう？）教科書和書で文字列探索だけを取り扱っている本を見かけたことがない．アルゴリズム本の探索の章にKMP法，BM法が紹介されているだけのケースが多い．注意してみるとAC法を扱っている本が意外と少ないことに気がつく．．．（文字列探索でよい和書の情報募集中）追記 (2009-04-02) Thanks to cubicdaiyaさん! 情報検索アルゴリズムにKMP法, BM法
niam 2009/04/02
programming

Algorithm

NLP

資料
リンク
編集距離 (Levenshtein Distance) - naoyaのはてなダイアリー
昨日最長共通部分列問題 (LCS) について触れました。ついでなので編集距離のアルゴリズムについても整理してみます。編集距離 (レーベンシュタイン距離, Levenshtein Distance) は二つの文字列の類似度 (異なり具合) を定量化するための数値です。文字の挿入/削除/置換で一方を他方に変形するための最小手順回数を数えたものが編集距離です。例えば伊藤直哉と伊藤直也 … 編集距離 1 伊藤直と伊藤直也 … 編集距離 1 佐藤直哉と伊藤直也 … 編集距離 2 佐藤B作と伊藤直也 … 編集距離 3 という具合です。編集距離はスペルミスを修正するプログラムや、近似文字列照合 (検索対象の文書から入力文字にある程度近い部分文字列を探し出す全文検索) などで利用されます。編集距離算出は動的計画法 (Dynamic Programming, DP) で計算することができることが
niam 2009/04/02
Algorithm

資料
リンク
1