Formal Analysis of Art: Proxy Learning of Visual Concepts from Style Through Language Models 一連の視覚要素と芸術の原則を使用して美術絵画を定量化できる機械学習システムを紹介します。この正式な分析は芸術を理解するための基本ですが、そのようなシステムを開発することは困難です。絵画は視覚的に複雑ですが、直接ラベルを使用して十分なトレーニングデータを収集することも困難です。これらの実際的な制限を解決するために、プロキシ学習と呼ばれる新しいメカニズムを導入します。これは、スタイルとの一般的な関係を通じて絵画の視覚的概念を学習します。このフレームワークは視覚的な注釈を必要としませんが、スタイルラベルと視覚的な概念とスタイルの間の一般的な関係のみを使用します。この論文では、新しいプロキシモデルを提案し、プロキシ
Learning Audio-Visual Speech Representation by Masked Multimodal Cluster Prediction 音声のビデオ録画には、相関する音声情報と視覚情報が含まれており、話者の唇の動きと生成された音から学習する音声表現に強力な信号を提供します。視聴覚音声の自己監視表現学習フレームワークである視聴覚隠しユニットBERT(AV-HuBERT)を紹介します。これは、マルチストリームビデオ入力をマスクし、自動的に検出され、反復的に洗練されたマルチモーダル隠しユニットを予測します。 AV-HuBERTは、読唇術と自動音声認識の両方に役立つ強力な視聴覚音声表現を学習します。最大の公開読唇ベンチマークLRS3(433時間)では、AV-HuBERTはわずか30時間のラベル付きデータで32.5%のWERを達成し、1000倍以上のトレーニングを受け
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く