Innovative Tech: このコーナーでは、テクノロジーの最新研究を紹介するWebメディア「Seamless」を主宰する山下裕毅氏が執筆。新規性の高い科学論文を山下氏がピックアップし、解説する。 米カリフォルニア大学マーセド校の研究チームが開発した「LipType」は、音のない口パク映像を音声に変換する、深層学習を用いた読唇システムだ。スマートフォンのインカメラで口パクを自撮りして、話者の唇の動きを読み取る。 音声認識は、周囲が騒がしい場合には信頼性が低く、図書館や電車内などではプライバシーやセキュリティが損なわれる。声が出せない障害のある人はそもそも音声認識が使えない。 解決策としては、口パクのような無声発話による音声入力が挙げられる。無声発話時に動く顎の動きを捉えて音声に変換するものや、無声発話時に顎の下に設置したセンサーから皮膚が変動する顎運動と舌筋の運動を計測し音声に変換す
![読唇術で音声入力 スマホで口パクを自撮りし音声に変換「LipType」](https://cdn-ak-scissors.b.st-hatena.com/image/square/5767825d962e7642aa0716fa49e10099c3fd518d/height=288;version=1;width=512/https%3A%2F%2Fimage.itmedia.co.jp%2Fnews%2Farticles%2F2109%2F01%2Fcover_news061.png)