[B! algorithm] [4ページ] syou6162のブックマーク

syou6162 id:syou6162

algorithmに関するsyou6162のブックマーク (107)

クラスカルのアルゴリズム - Mae向きなブログ
id:naoyaさんが，クラスカルのアルゴリズムをPythonで実装されています。 http://d.hatena.ne.jp/naoya/20090610/1244647082 自分の理解を深めるために，Rubyで書いてみました。 mst_kluskal.rb #!/usr/bin/env ruby class DisjointSet attr_accessor :parent, :rank def initialize(size) @parent = Array.new(size, 0) @rank = Array.new(size, 0) for i in 0...size @parent[i] = i end end def union(x, y) self.link(self.find_set(x), self.find_set(y)) end def link(x, y) if
syou6162 2009/06/15
あとで読まないと

ruby

algorithm
リンク
Algo 23 MSTP
Service Configuration Management for Rapid Growth - demo 10 steps to build pi...Takashi Someda
syou6162 2009/06/11
algorithm

graph
リンク
クラスカルのアルゴリズム - naoyaのはてなダイアリー
昨年からはじめたアルゴリズムイントロダクションの輪講も終盤に差し掛かり、残すところ数章となりました。今週は第23章の最小全域木でした。辺に重みのあるグラフで全域木を張るとき、その全域木を構成する辺の合計コストが最小の組み合わせが最小全域木です。アルゴリズムイントロダクションでは、クラスカルのアルゴリズム、プリムのアルゴリズムの二点が紹介されています。いずれも20世紀半ばに発見された古典的なアルゴリズムです。二つのうち前者、クラスカルのアルゴリズムは、コスト最小の辺から順番にみていって、その辺を選んだことで閉路が構成されなければ、それは安全な辺であるとみなし、最小全域木を構成する辺のひとつとして選択します。これを繰り返しているうちに最小全域木が構成されるというアルゴリズムです。今日はクラスカルのアルゴリズムを Python で実装してみました。扱うグラフは書籍の例を使ってみました。以下
syou6162 2009/06/11
ちょうどprim法とか実装してたところなんですが

python

algorithm
リンク
最小全域木問題(クラスカル法とプリム法) - ぬいぐるみライフ？
最小全域木問題を解くためのアルゴリズム「クラスカル法」と「プリム法」を使ってみた．最小全域木についてクラスカル法プリム法 PKUの問題クラスカル法による解答プリム法による解答メモリ使用量と実行時間の比較最小全域木についてまず，全域木(Spanning tree)とは連結グラフの全ての頂点とそのグラフを構成する辺の一部分のみで構成される木のこと．つまり，連結グラフから適当な辺を取り除いていき，閉路をもたない木の形にしたものが全域木となる．ここで，グラフの各辺に重みがある場合，重みの総和が最小になるように辺を選んで作った全域木のことを最小全域木(Minimum spanning tree)という．最小全域木を求めるアルゴリズムとしては以下の二つが有名である．クラスカル法 (Kruskal's algorithm) プリム法 (Prim's algorithm) いずれも貪欲
syou6162 2009/06/06
c++

cpp

algorithm
リンク
plda - Google Code
Code Archive Skip to content Google About Google Privacy Terms
syou6162 2009/06/03
algorithm

nlp

c++

machine_learning

LDA

ML
リンク
東京を走る路線のデータを使って、最短経路問題をダイクストラ法で解く - imHo
ダイクストラ法が小さなサンプルデータで動いたら、実際のデータを使ってみたくなるのが人情。東京を走る地下鉄のデータでやってみたいと思った。 JavaScriptとPrototype.jsとGoogle MapsAPIとすったもんだしたあげく、なんとか動くものができた。 502 Bad Gateway テストアプリはこちら JavaScriptのソースはここのhtmlに駅や路線のデータは駅データ．ｊｐのものを使わせてもらいました。使ったのは東京メトロ＋都営＋山手線駅（ノード）の数は、同じ駅でも路線ごとで別にカウントして 322 駅同士をつなぐ線路（エッジ）の数は、徒歩や乗換えを含め 912 体感もっさり感じるけど、経路の検索以外のところがかなりかかってる Tips Prototype.js Array.without は超重い、使うな！ Hash.keys で返ってくるキーはすべて文字列に
syou6162 2009/05/30
アルゴリズム

algorithm

programming

ruby

graph
リンク
アルゴリズムコンテストの挑み方 (2) - d.y.d.
21:25 08/10/27 論文の締め切り終わったら頑張った自分へのご褒美（笑）であれとこれとそれをやる時間をとるぞー！ ……みたいなことを思っていたはずなのに、いざ提出し終わると気が抜けて何一つやる気がでない問題。困った困った。ナイチルたくさん人がいらしてる今のうちに「ナイトメア☆チルドレン」新装版面白いよみんな買おうぜ！などと書いてみる。自分のマンガの趣味はわりと平凡だと思ってて、流行ってるマンガは大抵好きだし自分の好きなのはだいたい流行ってるし。なのになぜだか藤野もやむ作品だけは唯一の例外で、とっても不思議でならない。 100回くらいアニメ化されてて然るべきだと思う。何回か書いてますがとにかく最終話が好きで、そこまでのシナリオが一気に集まって一つ一つのセリフが３倍の重みを持つように収斂していく幕引き。あれは良い。 17:12 08/10/24 アルゴリズム
syou6162 2009/05/30
algorithm

アルゴリズム

programming
リンク
アルゴリズムコンテストの挑み方 - d.y.d.
17:29 08/09/30 クロスワード暇つぶしに "Clueless Crossword" という冊子を買ってみて意外とハマっています。クロスワードパズルなんだけど、単語のヒントの代わりに、各マスに1～26の数字が振ってあって同じ数字のマスには同じA～Zが入るように埋めるというもの。「母音っぽくて二連続して語尾にも出てくるのは多分 E だろう、もしかしたら O の可能性はなくもないけど」みたいに埋めていく。ちょっと違うけどフラッシュであった。 20:15 08/09/28 だいちのよろいそろそろ日本に戻る前に観光するぞ月間、ということにして、ウルル（エアーズロック）に行ってきました。もっとワイルドな感じかと思ったら、完全にリゾートのリゾートによるリゾートのための地帯になってました。まあそんなもんか。本日は強風のため登るの禁止とのことだったので、周りから見るだけ。
syou6162 2009/05/30
algorithm

プログラミング

プログラム
リンク
ohmm（オンラインEMによるHMM学習）をリリースしました - DO++
Ohmm-0.01をリリースしました [Ohmm 日本語] [Ohmm English] これは、以前のブログで書いた、オンラインEM法をそのまま素直に隠れマルコフモデル(HMM)に対し適用したライブラリです。使う場合は、単語（アクセス履歴とかなんでもよい）に分けられているテキストを入力として与えれば、HMMによる学習を行い、結果を出力します。他で利用できるように、パラメータを出力したり、単語のクラスタリング結果を出力します。 HMM自体は、言語情報やアクセス履歴、生物情報（ＤＮＡ）といったシーケンス情報において、前後の情報を用いて各要素をクラスタリングしたい場合に用います。本ライブラリの特徴はオンラインEMの特徴通り、従来のEMよりも速く収束します。一応標準的な最適化手法（スケーリング、スパースな期待値情報の管理）もいれているので、そこそこ高速に動きます速度的には100万語、隠れ状
syou6162 2009/05/21
algorithm

machine learning

自然言語処理

機械学習
リンク
アルゴリズムイントロダクション輪講動的計画法の発表資料 - てっく煮ブログ
2009年3月2日に、はてな京都オフィスで開催されたアルゴリズムイントロダクション輪講の第12回で「動的計画法」について発表しました。資料をここにおいておきます。View more presentations from nitoyon.分かりやすくしようと気合を入れてまとめたら165ページの大作になっちゃいました。無駄に長くてすいません。アルゴリズムの設計と解析手法 (アルゴリズムイントロダクション)作者: T.コルメン, R.リベスト, C.シュタイン, C.ライザーソン, Thomas H. Cormen, Clifford Stein, Ronald L. Rivest, Charles E. Leiserson, 浅野哲夫, 岩野和生, 梅尾博司, 山下雅史, 和田幸一出版社/メーカー: 近代科学社発売日: 2007/03メディア: 単行本
syou6162 2009/04/30
algorithm

programming

アルゴリズム

presentation
リンク
DO++ : 部分文字列の話
ここしばらく、部分文字列の統計量を利用した機械学習やデータマイニングをやっている。そこの話からちょっと抜粋。長さnの文字列T[1,...,n]が与えられた時、T中に出現する部分文字列T[i...j] (1≦i≦j≦n）の数はn個の中からiとjの2箇所を選ぶのでO(n^2)個ある。例えば、n=10^6(1MB)だったら、部分文字列の数は約10^12個(1T)と非常に大きい。しかし、これらの部分文字列の出現位置は同じである場合が多い。例えばT="abracadabra"であれば、"abra"と"abr"の出現場所は1番目と8番目であり、全く同じである。では出現位置（部分文字列の左端を出現位置とする）が全く同じであるような部分文字列をまとめてグループにした場合、グループの数はいくつになるのだろうか。これは接尾辞木（wikipedia 授業の資料）を知っているなら簡単に説明できる。 Tに対
syou6162 2009/04/25
algorithm

machine learning
リンク
オンラインEMアルゴリズム - DO++
EMアルゴリズム（Expectation Maximizationアルゴリズム、期待値最大化法、以下EMと呼ぶ）は、データに観測できない隠れ変数（潜在変数）がある場合のパラメータ推定を行う時に有用な手法である。 EMは何それという人のために簡単な説明を下の方に書いたので読んでみてください。 EMのきちんとした説明なら持橋さんによる解説「自然言語処理のための変分ベイズ法」や「計算統計 I―確率計算の新しい手法統計科学のフロンティア 11」が丁寧でわかりやすい。 EMは教師無学習では中心的な手法であり、何か観測できない変数を含めた確率モデルを作ってその確率モデルの尤度を最大化するという枠組みで、観測できなかった変数はなんだったのかを推定する場合に用いられる。例えば自然言語処理に限っていえば文書や単語クラスタリングから、文法推定、形態素解析、機械翻訳における単語アライメントなどで使われる。
syou6162 2009/04/16
S-EMとかI-EMとか

algorithm

machine learning

statistic

em algorithm

nlp
リンク
Não Aqui! » 10行強で書けるロジスティック回帰モデル学習
ロジスティック回帰（logistic regression）の学習が，確率的勾配降下法（SGD: stochastic gradient descent）を使って，非常に簡単に書けることを示すPythonコード．コメントや空行を除けば十数行です．リストの内包表記，条件演算子（Cで言う三項演算子），自動的に初期化してくれる辞書型（collections.defaultdict）は，Python以外ではあまり見ないかも知れません．リストの内包表記は，Haskell, OCaml, C#にもあるようなので，結構メジャーかも知れません． [W[x] for x in X] と書くと，「Xに含まれるすべてのxに対し，それぞれW[x]を計算した結果をリストにしたもの」という意味になります．sum関数はリストの値の和を返すので，変数aにはXとWの内積が計算されます． Pythonでは，三項演算子を条
syou6162 2009/04/02
algorithm

ml

python

research

source
リンク
第6回 N-gramと形態素解析との比較 | gihyo.jp
これまでに、N-gramと形態素解析の2つの検索エンジンの、見出し語の切り出し方法を説明しました。今回は、2つの見出し語の切り出し方法を比較し、それぞれの得意な点、不得意な点を明らかにしていきます。 2つの手法の概要はじめに、2つの手法をおさらいしてみます。形態素解析検索対象のテキストを形態素解析を行い分かち書きを行う分かち書きした単位を見出し語として転置インデックスを作成する転置インデックスを元に検索を行う N-gram 検索対象のテキストをN文字単位の文字列片に分解する分解した文字列片を見出し語として転置インデックスを作成する検索語をN文字単位の文字列片に分け検索を行う文字列の出現位置情報を利用すれば、漏れのない完全一致の検索が可能大きな違いは、「⁠転置インデックスの見出し語をどのように作るか」というプロセスが異なる点です。形態素解析は構文解析を行って分かち書きを行う
syou6162 2009/03/30
自然言語処理

algorithm

nlp
リンク
検索における適合率 (Precision) と再現率 (Recall)
検索における適合率 (Precision) と再現率 (Recall) 2008-01-17-1 [IIR] 「Introduction to Information Retrieval」[1] の輪講の第一回[2008-01-12-1]でちらっと話しましたが、第一章の 1.1 に Precision と Recall の説明があります（第八章でも出てきます）。若干混乱しやすくややこしい話なので、ここで改めて解説します。 § Precision (適合率) とは、全検索結果に対しての、検索要求 (information need) を満たす検索結果の割合です。例えば、「MacBook Air の重量を知りたい」という検索要求を満たすために検索キー「MacBook Air 重さ」でウェブ検索した結果100件のうち、検索要求を満たす（重さが分かる）のが85件だとすると、 Precis
syou6162 2009/03/15
algorithm

アルゴリズム

自然言語処理

ir

nlp
リンク
大規模データを基にした自然言語処理 - DO++
人工知能基本問題研究会 (SIG-FPAI)でタイトルの題目で一時間ほど話してきました。発表資料 [pptx] [pdf] 話した内容は - 自然言語処理における特徴ベクトルの作り方と、性質 - オンライン学習, Perceptron, Passive Agressive (PA), Confidence Weighted Learning (CW) 確率的勾配降下法 (SGD) - L1正則化, FOLOS - 索引を用いた効率化, 全ての部分文字列を利用した文書分類で、スライドで70枚ぐらい。今までの発表とかぶっていないのはPA CW SGD FOLOSあたりでしょうかオンライン学習、L1正則化の話がメインになっていて、その両方の最終形の確率的勾配降下法 + FOLOSの組み合わせは任意の損失関数に対してL1/L2正則化をかけながらオンライン学習をとても簡単にできるという一昔前
syou6162 2009/03/14
素晴らしい資料!!!

algorithm

自然言語処理

nlp
リンク
リンク解析とか: 重要度尺度と von Neumann カーネル - smly’s notepad
NAIST の入学手続を終えた. 残りの期間はサーベイするぞーということで shimbo 先生の講義資料「リンク解析とその周辺の話題」を読んでいます. 一日目, 二日目の資料は PageRank, HITS, SALSA などの重要度尺度の紹介と, von Neumann Kernels と HITS の関係についてのお話が中心. これらを実装してみた. 後半に進むほど力尽きて記述が適当になってます:)PageRankポイントはランダム遷移行列による random walk では定常分布に収束しない (エルゴード性 (ergodic) を満たさない) という点. どうして満たさないかというと. sink (出次数のない節点) が存在するとき, 明らかに既約 (irreducible) でないのでエルゴード性を満たさない. 複数の強連結成分を持つケース => 周期性を持つと考えてよい? 周期
syou6162 2009/02/28
algorithm

analysis

graph

ir

pagerank

naist
リンク
最大マージン kNN と SVM の関係: kNN も最近はがんばっています - 武蔵野日記
先日書いた機械学習における距離学習の続き。 kNN (k-nearest neighbour: k 近傍法)は Wikipedia のエントリにも書いてある通り、教師あり学習の一つで、あるインスタンスのラベルを周辺 k 個のラベルから推定する手法。memory-based learning と呼ばれることもある。単純に多数決を取る場合もあれば(同点を解決する必要があるが)、近いインスタンスの重みを大きくする場合もあるのだが、いずれにせよかなり実装は単純なので、他の機械学習との比較(ベースライン)として使われることも多い。簡単なアルゴリズムではあるが、1-NN の場合このアルゴリズムの誤り率はベイズ誤り率(達成可能な最小誤り率)の2倍以下となることが示されたり、理論的にもそれなりにクリアになってきているのではないかと思う。また、多クラス分類がちょっと一手間な SVM (pairwise に
syou6162 2009/02/19
algorithm

study

機械学習

svm

アルゴリズム

clustering

machine learning
リンク
自然言語処理における類似度学習(機械学習における距離学習)について - 武蔵野日記
Twitter でグラフ理論に関する話題が上がっていたので、最近調べている距離学習(distance metric learning)について少しまとめてみる。カーネルとか距離(類似度)とかを学習するという話(カーネルというのは2点間の近さを測る関数だと思ってもらえれば)。この分野では Liu Yang によるA comprehensive survey on distance metric learning (2005) が包括的なサーベイ論文として有名なようだが、それのアップデート(かつ簡略)版として同じ著者によるAn overview of distance metric learning (2007) が出ているので、それをさらに簡略化してお届けする(元論文自体本文は3ページしかないし、引用文献のあとに表が2ページあって、それぞれ相違点と共通点がまとまっているので、これを見ると非
syou6162 2009/01/28
algorithm

あとで読む

研究

自然言語処理

読み物

論文

machine learning

nlp

research

機械学習
リンク
昨年の論文をふりかえる - DO++
新年すっかりあけてました。今年もよろしくお願いします。年末年始はドタバタして昨年を振り返られなかったのですが、せっかくなので2008年に読んだ論文で私個人のベスト５を以下に列挙してみます。 D. Sontag, et. al. "Tightening LP Relaxations for MAP using Message Passing", UAI 2008 [pdf] Graphical ModelのMAP推定問題で従来解けなかった規模の複雑さの問題を高速にしかも最大であるという保障付きで解けるようにした。書いたメンバーはこの問題に関するオールスターのような感じ。解く問題は、n個の頂点からなるグラフで、各頂点には変数x1...xnがついていて、各頂点と各枝に対し関数gi(xi)、gij(xi,xj)が与えられた時、∑i gi(xi) + ∑ij gij(xi,xj)が最大となるよう
syou6162 2009/01/17
algorithm

まとめ

アルゴリズム

研究

論文
リンク
前のページ 1 2 3 4 5 6 次のページ