エントリーの編集
エントリーの編集は全ユーザーに共通の機能です。
必ずガイドラインを一読の上ご利用ください。
画像、音声、テキストを用いたマルチモーダル・ディープラーニング - Qiita
記事へのコメント0件
- 注目コメント
- 新着コメント
このエントリーにコメントしてみましょう。
注目コメント算出アルゴリズムの一部にLINEヤフー株式会社の「建設的コメント順位付けモデルAPI」を使用しています
- バナー広告なし
- ミュート機能あり
- ダークモード搭載
関連記事
画像、音声、テキストを用いたマルチモーダル・ディープラーニング - Qiita
画像、音声、テキストを用いたマルチモーダル・ディープラーニング マルチモーダル学習は複数種類のデー... 画像、音声、テキストを用いたマルチモーダル・ディープラーニング マルチモーダル学習は複数種類のデータを入力とし、統合的に処理する機械学習です。 あるコンテンツを構成するデータとしてテーブルデータ、画像、テキスト、音声、動画等々があります。例えばYoutubeのような動画の場合、動画、音声、スクリーンショット、テキスト、再生回数、再生者、投稿者、投稿日等々のデータで構成されています。これらのデータを用いて機械学習により分類や回帰を行うのがマルチモーダル学習です。人間は五感から情報を得ていますが、機械学習でも同様に複数種類のデータから学習して、判定器を作るというものになります。 今回は画像、音声、テキストを用いてマルチモーダル・ディープラーニングの分類器をKerasで作ります。 データセットはフリーで公開されているものを組み合わせて独自に(無理やり)作りました。 Caltech256から抜粋

