視覚と聴覚を統合して学習させたぞ！　な論文(原典:See, Hear, and Read: Deep Aligned Representations ) - Qiita

テクノロジーカテゴリーの変更を依頼記事元:

qiita.com/niwango

1user がブックマークコメント

コメント

0

記事へのコメント0件

注目コメント
新着コメント

新着コメントはまだありません。
このエントリーにコメントしてみましょう。

注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています

規約違反を報告

アプリのスクリーンショット

いまの話題をアプリでチェック！

バナー広告なし
ミュート機能あり
ダークモード搭載

アプリをダウンロード

関連記事

視覚と聴覚を統合して学習させたぞ！　な論文(原典:See, Hear, and Read: Deep Aligned Representations ) - Qiita

原典 See, Hear, and Read: Deep Aligned Representations arxiv-vanity.com/papers/1706.00932/ どんな... 原典 See, Hear, and Read: Deep Aligned Representations arxiv-vanity.com/papers/1706.00932/ どんな論文？画像とキャプションのペアを学習させた。それによって、未知の画像に対しても、定量的にいい感じの音とテキストの関係も学習できていたことがわかった。テキスト、サウンド、イメージについてCNNを施す。下位の層は重みを共有しないが、上位の層でのみ重みを共有するという面白さ。どうやって学習させているのか？ペアになっている画像と音、あるいは画像とテキストの２つについて、それらが同じグループに属するように学習をさせた（KLダイバージェンス）どんなもの？音声とテキストと画像データを食べさせた。学習については、画像＋テキスト、画像＋音声の２ペアである。しかしながら結果として音声とテキストのペアも学習すること

ブックマークしたユーザー

同じサイトの新着

同じサイトの新着をもっと読む

いま人気の記事

いま人気の記事をもっと読む

いま人気の記事 - テクノロジー

いま人気の記事 - テクノロジーをもっと読む

新着記事 - テクノロジー

新着記事 - テクノロジーをもっと読む

いま人気の記事 - 企業メディア

企業メディアをもっと読む

設定を変更しましたx