3つの要点 ✔️ テキスト・音声・動画の特徴を活用した感情認識で高精度を達成! ✔️ Transformerにより発話間の関係を、Multi-Head Attentionによりモダリティ間の関係を学習! ✔️ 動画特徴では"表情"だけでなく"シーン全体"のコンテクストを利用する必要性を示した M2FNet: Multi-modal Fusion Network for Emotion Recognition in Conversation written by Vishal Chudasama, Purbayan Kar, Ashish Gudmalwar, Nirmesh Shah, Pankaj Wasnik, Naoyuki Onoe (Submitted on 5 Jun 2022) Comments: Accepted for publication in the 5th Mul