米Google傘下のDeepMindと英オックスフォード大学エンジニアリング科学学部は11月16日、「Lip Reading Sentences in the Wild」と題す論文を公開(リンク先はPDF)した。 人間が何を話しているかを、口の動きだけで読み取る「読唇(lip readinig)」ための、ディープラーニングベースの人工知能(AI)開発に関する論文だ。 このプロジェクトでは、英国営放送BBCで2010年1月~2015年12月に放映した5000時間以上の番組をAIに“見せ”ることで訓練した。これらの動画には11万8000以上のセンテンス(文章)が含まれている。 こうして育てた結果、未見のBBC番組でテストしたところ、読唇のプロの人間が12.4%読み取ったところ、AIは46.8%読み取れたという。しかも、ミスのほとんどは、複数形を表す語尾の「s」を抜かすといった小さなミスだったと