原文 DBMを用いた多形態データの学習(Multimodal Learning with Deep Boltzmann Machines) Nitish Srivastava (2012) 1. 要約/背景 画像と文字の混合データにDBMを適用したら、良好な結果を得られた。 テキストと画像では抽出データの型が異なるため、もともと併用が難しい テキスト→語数カウントベクトルであり、成分は離散的かつスパースである。 画像→ピクセルに分割し、各点の輝度をベクトルにまとめる。 SVMとLDA→混合データの認識に使われるが、教師データがない場合、特徴抽出ができない… 混合データによる学習イメージを下に示す。 画像をインプットした時に、意味(タグ登録してある)を選択識別する感じ。 2. 骨子の理論 分析過程の模式図を以下に示す。 ポイントは、画像の特徴とテキストの特徴をそれぞれ別のDBMで学習させるこ

