ビタビ・アルゴリズム Viterbi algorithm ホーム 情報通信のハイパーテキストは下記へ移動しました。 http://www.mnc.toho-u.ac.jp/v-lab/ お探しの内容は、下記の目次にあります。 http://www.mnc.toho-u.ac.jp/v-lab/yobology/index.htm
ビタビ・アルゴリズム Viterbi algorithm ホーム 情報通信のハイパーテキストは下記へ移動しました。 http://www.mnc.toho-u.ac.jp/v-lab/ お探しの内容は、下記の目次にあります。 http://www.mnc.toho-u.ac.jp/v-lab/yobology/index.htm
前回は単語数最小法によるViterbiアルゴリズムを使って、「猫はうろうろ」を形態素解析しました。 www.yasuhisay.info 単語数最小法では、単語の品詞などは見ておらず、ただただ単語数を最小にするように動的計画法であるViterbiを動かしていきます。品詞を見ていないため、「家におくりました」は「家」、「におくり」、「ました」と間違って形態素解析されていました。 コスト最小法による形態素解析そこで ある単語がある品詞で登場するコスト ある品詞とある品詞の接続するコスト というコストの概念を導入します。 「ある単語がある品詞で登場するコスト」というのは、例えば 「まし」が助動詞で登場するコスト 「まし(増し)」が動詞で登場するコスト というような感じで、単一の言葉でも、品詞が違う場合にはそのコストを区別するような考え方です。 一方、「ある品詞とある品詞の接続するコスト」というの
今までPRMLを読んで実装を続けてきましたが、10章からは難しくて歯が立たなくなってきたのでここらで少し具体的な応用に目を向けてみようと思います。機械学習の応用先としては画像の方が結果を見ていて面白いんですが、当面は自然言語処理を取り上げます。そんなわけで一番始めの応用は機械学習と自然言語処理の接点として非常に重要なテキスト分類(Text Classification, Text Categorization)の技法たちを試していきたいと思います。テキスト分類は文書分類(Document Classification)という呼び方もあります。テキストと文書は同じ意味です。最初なので自分の知識の整理と入門者への紹介のためにちょっと丁寧にまとめてみました。 テキスト分類とは テキスト分類とは、与えられた文書(Webページとか)をあらかじめ与えられたいくつかのカテゴリ(クラス)に自動分類するタス
JAVAでデータマイング! 『情報工学の難しいそうなアルゴリズムをJAVAで実装して、ひたすらその結果を公開する』ブログになる予定。 PR Calendar <<March>> S M T W T F S 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Theme NaiveBayes ( 2 ) スムージング ( 0 ) はじめに ( 1 ) 計算テクニック ( 0 ) 外れ値除去 ( 0 ) LSH ( 4 ) 協調フィルタリング ( 0 ) ブースティング ( 0 ) Kmeans ( 0 ) 階層的クラスタリング ( 2 ) EMアルゴリズム ( 0 ) BM ( 0 ) SVD ( 0 ) PLSI ( 0 ) LDA ( 0 ) パーセプトロン ( 0 ) A
最近、Q&AコミュニティのQuoraが流行っていますね。Quoraそこで、個人的に興味のある分野のQAについてまとめておきます。 自然言語処理・機械学習系 What is the best way to analyze a corpus of text to determine the most popular phrases? - QuoraWhat is the best open source C++ implementation of a trie? - QuoraMachine Learning: What papers have shown that for machine learning, data set size is more important than the model being trained? - QuoraNatural Language Process
2010年は、パターン認識と機械学習(PRML)を読破して、機械学習の基礎理論とさまざまなアルゴリズムを身につけるという目標(2010/1/1)をたてています。もうすでに2010年も半分以上過ぎてしまいましたが、ここらでまとめたページを作っておこうと思います。ただ漫然と読んでると理解できてるかいまいち不安なので、Python(2006/12/10)というプログラミング言語で例を実装しながら読み進めています。Pythonの数値計算ライブラリScipy、Numpyとグラフ描画ライブラリのmatplotlibを主に使ってコーディングしています。実用的なコードでないかもしれませんが、ご参考まで。 PRMLのPython実装 PRML読書中(2010/3/26) 多項式曲線フィッティング(2010/3/27) 最尤推定、MAP推定、ベイズ推定(2010/4/4) 分類における最小二乗(2010/4/
藤吉弘亘. "Gradientベースの特徴抽出 - SIFTとHOG - ", 情報処理学会 研究報告 CVIM 160, pp. 211-224, 2007. Scale-Invariant Feature Transform(SIFT) は,特徴点の検出と特徴量の記述を行うアルゴリズムである. 検出した特徴点に対して,画像の回転・スケール変化・照明変化等に頑健な特徴量を記述するため,イメージモザイク等の画像のマチングや物体認識・検出に用いられている. 本稿では,SIFT のアルゴリズムについて概説し,具体例としてSIFT を用いたアプリケーションや応用手法への展開について紹介する.また,SIFT と同様にgradient ベースの特徴抽出法であるHistograms of Oriented Gradients(HOG)のアルゴリズムとその応用例として人検出についても紹介する. Scal
3日で作る高速特定物体認識システム 黄瀬浩一,岩村雅一 (大阪府立大学) 1.システム構成 2.システムの作成 2.1 特徴抽出モジュール 利用するプログラム A C implementation of SIFT by Rob Hess 環境設定 OpenCV 全体のページ インストールの方法: 例えばこのページ. Visual Studio(2005, or 2008) 設定の方法: 例えばこのページ. 参考文献 藤吉先生による日本語の解説: 分かりやすい. Wikipedia: リンクが豊富. Lowe教授のページ: 本家.手軽に試せるプログラムもある.Matlabバージョンは非常に簡単. 2.2 物体モデル 物体モデルといっても特別な仕掛けがあるわけではなく, <物体ID> <特徴ベクトル(128個の数字)> が特徴ベクトルの個数だけ並んだ1つのファイルです. x行目は,特徴ベクトル
制約なし最適化問題に対する準ニュートン法 (非線形計画法) 製作者:向 譲治 制約なし最適化問題は次のように表す。 この問題の解法としてニュートン法、準ニュートン法などがある。 ニュートン法 ニュートン法は反復法の一種である。反復法とは、適当な初期点 から出発して、 によって次の点列を生成し、最終的に最適解に収束するものである。ここでを探索方向という。 ニュートン法では、各反復において、関数 f を でテイラー展開して得られる2次関数
単語の重み付けの古典的な方法に tf-idf があります。文書中の各単語の tf-idf 値計算し、値でソートすると、その文書に特徴的な単語リストを得ることができます。 http://nais.to/~yto/clog/2005-10-12-1.html tf-idf は、単なるヒューリスティックスだと考えられていましたが、最近言語モデルに基づく情報検索手法がさかんに研究されるようになり、tf*idf の解釈が明らかになってきました。言語モデルに基づく手法は、ヒューリスティックスばりばりの手法と同性能にもかかわらず、文書のランキングに理論的で合理的な説明を与えることができます。 情報検索は、クエリ q に対し、もっとも適合する文書 d_opt を求めるタスクです。つまり、q が与えられたとき、文書 d が出現する確率 p(d|q) の最大化問題と解釈できます。 d_opt = argmax
近年,機械学習の研究分野において,ブースティングと呼ばれるアルゴリズムが注目を集めています.アルゴリズムと書きましたが,正確には教師あり学習を実行するための機械学習のメタアルゴリズムであります.すなわち,一般の(任意の)機械学習アルゴリズムをもっと賢く実行するためのフレームワークと言えます.弱い学習機をまとめて,重みを付けてその結果を足し合わせることで,強い学習機を生成することを目指します. 核となる機械学習アルゴリズムに何を用いるかは,制限されておりません.弱い分類器は,学習の正確さ(あるいは汎用性?)に基づいて,重み付けされます.「分類器をいくつも作成する」と言っても,どう作成するのかが分からないと思いますが,実際には,元のデータに重み付けをし直して(何度も重みづけを行い),それにより共通の機械学習アルゴリズムで学習し,複数の分類器を作ります.一般には,誤分類される例(サンプル)は重み
次回のCVIM勉強会でmean-shiftについて話すことになってしまったので、理解のためにmean-shiftアルゴリズムを実装してみた。 カーネルは一番簡単なフラットカーネルを利用し、また画像もグレイスケール画像のみを扱うためピクセルの値は[0,256]の一次元データとみなす。 またナイーブな実装だと512*512ぐらいの画像でもすごい時間がかかるので二分探索とFenwickTree(動的に更新する必要はないので別に使う必要なかった、累積和を保存した配列に変更)を使ってグレイスケール画像かつフラットカーネルであることを利用して高速化した関数meanShiftLoopFastを用意した。 元画像は下のようになっている。 bandWidth=10のときは下のようになり、肌の部分が同じ値に収束していることがわかる。 bandWidth=20のときは以下のようになり、やや平滑化されすぎているこ
前々からアニメ顔類似検索のbag of featuresで使っている特徴点の決め方がイラストにあまり合っていない気がしていたけど、実装がすごく面倒くさそうだったのでやらなかった。しかし、最近SURFに特許があることが発覚して、SURFを使っている意味は特にないなーと思ったので、満足のいくものをつくろう思ったのであった。(ただ特許は気にせずにやる) ということで、こんなのができた(クリックで拡大)。 結構速いし、スケールの変化、回転、ある程度のゆがみには大体対応できている。対応点の決定は、点の特徴ベクトルが一番近い点と二番目に近い点を取って、ふたつの特徴ベクトルの距離の差を確信度として、確信度が高いもののみマッチングしたことにして表示している。 SIFTやSURFに比べると点多すぎだろ(なぜ渦巻きに…)と思うかもしれないけど、これは僕なりにイラストの特性とかbag of featuresで使
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く