TL;DR 深層強化学習による教師なし映像要約に関する論文1を読んで楽しそうだったので、実際に手元で試してみました。 最終的に「ハシビロコウ カエルに逃げられる(NHKクリエイティブ・ライブラリー)」などの動画から、以下のような結果が得られます。 元動画では、30秒ほど完全に固まったままだったハシビロコウもこの通り! 論文概要 Deep Reinforcement Learning for Unsupervised Video Summarization with Diversity-Representativeness Reward (AAAI 2018) 多様性と代表性を重視するような報酬設計をした強化学習を用いて、 多様性:他フレームとの類似度が低いほど報酬を大きく 代表性:画像特徴空間上に割り当てた各クラスタの中心に近いほど報酬を大きく 映像の各フレームを要約に含める確率を出力する