
エントリーの編集

エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
視覚と聴覚を統合して学習させたぞ! な論文(原典:See, Hear, and Read: Deep Aligned Representations ) - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
視覚と聴覚を統合して学習させたぞ! な論文(原典:See, Hear, and Read: Deep Aligned Representations ) - Qiita
原典 See, Hear, and Read: Deep Aligned Representations arxiv-vanity.com/papers/1706.00932/ どんな... 原典 See, Hear, and Read: Deep Aligned Representations arxiv-vanity.com/papers/1706.00932/ どんな論文? 画像とキャプションのペアを学習させた。 それによって、未知の画像に対しても、定量的にいい感じの音とテキストの関係も学習できていたことがわかった。 テキスト、サウンド、イメージについてCNNを施す。 下位の層は重みを共有しないが、上位の層でのみ重みを共有するという面白さ。 どうやって学習させているのか? ペアになっている画像と音、あるいは画像とテキストの2つについて、それらが同じグループに属するように学習をさせた(KLダイバージェンス) どんなもの? 音声とテキストと画像データを食べさせた。学習については、画像+テキスト、画像+音声の2ペアである。しかしながら結果として音声とテキストのペアも学習すること