PC Watchの記事によると、英オックスフォード大やGoogle DeepMindの研究者らの共同チームが開発した読唇術のシステム(LipNet)の精度が93.4%を達成したという。このシステムの中心的な技術としては機械学習を利用している。これまでの人間による読唇術の精度を圧倒的に超える画期的な成果といえる。
これまでの話し言葉の認識方法としては、一般に音声を認識する方法を使っていたが、発音に伴う口の動きによる認識方法が加わり、今後の応用の幅が広がりそうだ。たとえば、キーボードをタイプするのではない会話によるコンピューターのユーザーインターフェイス(アマゾンエコーやグーグルホーム)の広がりが期待されているが、それに加え、唇を読み取るという方法でのユーザーインターフェイスの実現もできるだろう。また、マイクによる録音状態のよくない動画ファイルからでも、テキスト化してその場でテロップとして表示することも考えられる。仮想現実(VR)での利用も新たな世界が実現できそう。もちろん、記事にもあるように、聴力障害のある方に向けた要素技術としても期待できる。いずれにしても他の技術との組み合わせ、あまり知られていない潜在的な用途に向けた実装に期待したい。