タグ

ブックマーク / hiro2o2.hatenablog.jp (4)

  • Caltech Pedestrian Dataset の使い方 - 画像処理とか機械学習とか

    Caltech Pedestrian Datasetとは コンピュータービジョンの分野における近年の歩行者検出は、Deep Learningを用いる手法が主流となってきている。それに伴って、非常に多くの学習画像が必要となっています。Caltech Pedestrian Dataset は近年の歩行者検出で用いられる学習データの中でも非常に多くのデータとannotation(ラベル付け)がされており、近年の研究では特に利用されているデータセットです。 Caltech Pedestrian Datasetは、圧縮された動画ファイルとアノテーションファイル、そして大きな学会で発表された歩行者検出の結果をDETカーブで表示するための実験結果・グラフ化のソースコードまで付属しています。 また、動画にアノテーションを付ける為のソフトも一緒についており、学習データを自作することも可能です。 つまり、Ca

    Caltech Pedestrian Dataset の使い方 - 画像処理とか機械学習とか
  • 混合ガウスモデルとEMアルゴリズム - 画像処理とか機械学習とか

    前回の記事で、単純なガウスモデルと最尤推定について紹介しました。 今回は、ガウスモデルよりも少し複雑なモデルを紹介したいと思います。 混合ガウスモデル(Gaussian Mixture Model) 以下のグラフのように、ガウス分布が合わさった分布の事を混合ガウスモデルと言います。以下の例では単純に二つのガウス分布が混合した分布になります。 上記グラフ出力の為のMatlabソースコード clear all %平均 mu=[4; -3]; %分散 sigma=cat(3,4,7); %混合比 p = ones(1,2)/2; %1次元混合ガウスモデル GMM = gmdistribution(mu,sigma,p); x=-10:0.1:10; x = transpose(x); y = pdf(GMM,x); plot(x,y, '-b');上のグラフで表した1次元の混合ガウスモデルを数式

    混合ガウスモデルとEMアルゴリズム - 画像処理とか機械学習とか
  • chainerのimagenetサンプルで好きな画像サイズで入力する方法 - 画像処理とか機械学習とか

    chainerのサンプルにあるimagenetは,1000クラスの大規模画像分類用に設計されたネットワークである,Network In Network や,AlexNet, GoogLeNetなどを使うことが出来ます。 入力画像のサイズは256×256となっており,train_imagenet.pyの学習プログラムの内部でランダムにクリッピングをすることで,学習データを増やし,多少のズレに頑健なネットワークの学習が可能となっています。 このサンプルソースを使って,自分で用意した学習データを使って学習させたい場合,入力画像のサイズや,アスペクト比が違うこともあると思います。 そういう場合に、どこを変更すれば簡単に動くようになるかを紹介したいと思います。 まず、train_imagenet.pyのプログラムから PreprocessedDatasetクラスの変更部分がこちらです。 class

    chainerのimagenetサンプルで好きな画像サイズで入力する方法 - 画像処理とか機械学習とか
  • EMアルゴリズム - 画像処理とか機械学習とか

    今回は、前回の混合ガウスモデルに引き続き、混合ガウスモデルのパラメータ推定の手法に使えるEMアルゴリズムについて紹介したいと思います。 混合ガウスモデルを例に挙げますので、混合ガウスモデルが分からない方は前回の記事を参照してください。 hiro2o2.hatenablog.jp なぜ最尤推定で解けないか? 混合ガウスモデルは以下の式で表せました。 何か近似したい確率密度分布(真の分布)がある際に、混合ガウスモデルを使って近似する場合、最も真の分布に近づくような、パラメータが分かれば良いです。 このパラメータの学習に、通常のガウスモデルと同じように最尤推定を用い、対数尤度の最大化のアプローチで解けるでしょうか? このように、正規分布の和のlogの部分で、微分して0とおく計算が難しくなります。 また、重みを足し合わせて1であるという条件と、共分散行列が正定値であるという条件のもと、を最大にする

  • 1