YouTube でお気に入りの動画や音楽を楽しみ、オリジナルのコンテンツをアップロードして友だちや家族、世界中の人たちと共有しましょう。
隠れマルコフモデル(HMM, Hidden Markov Model)は、内部の観測できない状態を外部で観測できる状態から推定する技術. 内部の状態は確率でどれかの状態に遷移し、遷移した先で決まった確率で観測される状態を出力する.ビタビアルゴリズムで内部の最も考えられる状態遷移を予測し、Forward-Barckwardアルゴリズムで各時刻、各状態の確率を算出し、BaumWelchアルゴリズムでそもそもモデルのパラメータを推定する.
隠れマルコフモデル(HMM, Hidden Markov Model)は、内部の観測できない状態を外部で観測できる状態から推定する技術. 内部の状態は確率でどれかの状態に遷移し、遷移した先で決まった確率で観測される状態を出力する.ビタビアルゴリズムで内部の最も考えられる状態遷移を予測し、Forward-Barckwardアルゴリズムで各時刻、各状態の確率を算出し、BaumWelchアルゴリズムでそもそもモデルのパラメータを推定する.
Feature Matchingよりよい結果になりやすい 1バッチの中の複数の画像が似ているかどうかのスコアを計算してDiscriminatorに与える Discriminatorには上記のスコアからfakeかrealかを見分けるヒントになる. Minibatch Discriminationは、GANなどで主に見られるMode Collapseのような問題に対して、複数枚の画像同士が似ているかのスコアをDiscriminatorに与えることで回避する. Discriminatorの上流の情報をコスト関数に含むようにしているFeature Matchingよりよい改善をすると言われている. Minibatch Discriminationの計算は以下のような手順で行う. ある画像とそれ以外全ての画像との差分を計算する箇所がある.それによって画像同士が似通っていないかを求めている. B次元は
CNNを使って画像の文字列を認識してプログラムで扱える文字列に起こすOCRの一般的な例について紹介します.文字列が可変の場合に対応したCNN+LSTM(biLSTM)で構成される基本的なネットワークです. 使用する技術 ・CNN (Convolutional Neural Network) Convolution層を主に用いたニューラルネットワーク ・LSTM(biLSTM) 時系列データや音声データ等において用いられるニューラルネットワーク. RNNの場合もある. ・CTC Loss 画像文字認識や音声認識などで使用される誤差関数.データの中での文字列の位置や長さが可変なものに対応しており、多く使用される. 全体概要 以下の図のように 1. CNNで画像から「画像の左から右に抽出した文字列特徴データ」列を算出 2. 1.で取り出したデータ列をLSTM(biLSTM)に投入して、推定される
反復閾値選択による二値化フィルタは、2クラスのクラスタリングによって繰り返し計算を行いながら閾値を自動で定める二値化フィルタ.人手であらかじめ決める必要はない. 反復閾値選択による二値化フィルタ 1. 前景平均値\(u_1\)を画像の四隅以外の平均値で初期化、背景平均値\(u_2\)を画像の背景とされそうな画像の四隅の値の平均で初期化.(初回だけ先に3.を行う) 2. 現在の閾値\(T\)より画素値が大きい画素の平均値\(u_1\)を計算.現在の閾値\(T\)より画素値が小さい画素の平均値\(u_2\)を計算. 3. 閾値\(T\)を更新する. $$T = \frac{u_1 + u_2}{2}$$ 4. 2.の閾値Tが前回から更新されなければ、終了. K-meansのように二つのクラスのうち近い方に画素を分類をする. 二つのクラスで分散が等しくないと適切な閾値にならない.
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く