PC Watchの記事によると、英オックスフォード大やGoogle DeepMindの研究者らの共同チームが開発した読唇術のシステム(LipNet)の精度が93.4%を達成したという。このシステムの中心的な技術としては機械学習を利用している。これまでの人間による読唇術の精度を圧倒的に超える画期的な成果といえる。
これまでの話し言葉の認識方法としては、一般に音声を認識する方法を使っていたが、発音に伴う口の動きによる認識方法が加わり、今後の応用の幅が広がりそうだ。たとえば、キーボードをタイプするのではない会話によるコンピューターのユーザーインターフェイス(アマゾンエコーやグーグルホーム)の広がりが期待されているが、それに加え、唇を読み取るという方法でのユーザーインターフェイスの実現もできるだろう。また、マイクによる録音状態のよくない動画ファイルからでも、テキスト化してその場でテロップとして表示することも考えられる。仮想現実(VR)での利用も新たな世界が実現できそう。もちろん、記事にもあるように、聴力障害のある方に向けた要素技術としても期待できる。いずれにしても他の技術との組み合わせ、あまり知られていない潜在的な用途に向けた実装に期待したい。

ニュースソース

  • 機械の読唇術精度が人間を遙かに上回る93.4%を達成 〜オックスフォード大やGoogleが共同開発。難聴の人向けサービスにも応用可能[PC Watch
https://i.impressrd.jp/wp-content/uploads/2016/11/ThinkstockPhotos-497781150-600x400.jpghttps://i.impressrd.jp/wp-content/uploads/2016/11/ThinkstockPhotos-497781150-130x130.jpg編集部ニュースキュレーションAI(人工知能),情報通信技術(一般)PC Watchの記事によると、英オックスフォード大やGoogle DeepMindの研究者らの共同チームが開発した読唇術のシステム(LipNet)の精度が93.4%を達成したという。このシステムの中心的な技術としては機械学習を利用している。これまでの人間による読唇術の精度を圧倒的に超える画期的な成果といえる。 これまでの話し言葉の認識方法としては、一般に音声を認識する方法を使っていたが、発音に伴う口の動きによる認識方法が加わり、今後の応用の幅が広がりそうだ。たとえば、キーボードをタイプするのではない会話によるコンピューターのユーザーインターフェイス(アマゾンエコーやグーグルホーム)の広がりが期待されているが、それに加え、唇を読み取るという方法でのユーザーインターフェイスの実現もできるだろう。また、マイクによる録音状態のよくない動画ファイルからでも、テキスト化してその場でテロップとして表示することも考えられる。仮想現実(VR)での利用も新たな世界が実現できそう。もちろん、記事にもあるように、聴力障害のある方に向けた要素技術としても期待できる。いずれにしても他の技術との組み合わせ、あまり知られていない潜在的な用途に向けた実装に期待したい。 ニュースソース 機械の読唇術精度が人間を遙かに上回る93.4%を達成 〜オックスフォード大やGoogleが共同開発。難聴の人向けサービスにも応用可能[PC Watch]IT第二幕を世界のニュースで横断読み解き。