音声認識とは、人間が発した音声をコンピュータが解析し、テキストデータや操作命令として認識する技術です。スマートフォンの音声アシスタント (Siri、Google アシスタント、Alexa)、音声ガイダンスの音声入力対応、通話の自動文字起こし、IVR の音声認識メニューなどに活用されています。
音声認識の精度は近年飛躍的に向上しました。深層学習 (ディープラーニング) の導入により、2020 年代の音声認識エンジンは日本語でも認識精度 95% 以上を達成しています。方言やアクセントへの対応も進み、ビジネスシーンでの議事録自動作成や、コールセンターでの通話内容のリアルタイム分析に実用化されています。
電話との関連では、ボイスメールの文字起こし機能が代表的です。iPhone の「ライブ留守番電話」は、着信中にリアルタイムで相手のメッセージをテキスト表示し、内容を見てから応答するか判断できます。Google Pixel の「通話スクリーニング」も同様の機能で、迷惑電話の判別に役立ちます。
一方で、音声認識技術の悪用も懸念されています。音声クローン技術は音声認識と音声合成を組み合わせたもので、わずかな音声サンプルから本人そっくりの合成音声を生成できます。音声認証 (声紋認証) を突破するリスクもあり、金融機関では音声認証だけに頼らない多要素認証が推奨されています。