音声合成 (TTS: Text-to-Speech) とは、テキストデータを入力として人工的な音声を生成する技術です。電話の世界では、IVR の音声ガイダンス、ボイスメールの文字起こし結果の読み上げ、視覚障害者向けの画面読み上げ機能などに活用されています。
音声合成技術は急速に進化しています。初期の合成音声は機械的で不自然でしたが、深層学習ベースの最新技術 (WaveNet、VALL-E など) は人間の声とほぼ区別がつかないレベルに達しています。感情の表現、イントネーションの自然さ、個人の声質の再現が可能になり、ナレーションやカスタマーサポートでの実用化が進んでいます。
一方で、音声合成技術の悪用が深刻な問題になっています。音声クローン詐欺は、わずか数秒の音声サンプルから本人そっくりの合成音声を生成し、家族を装って金銭を要求する手口です。音声認識と組み合わせることで、リアルタイムの会話すら可能になりつつあります。
音声合成による詐欺への対策として、家族間で合言葉を決めておく、電話でお金の話が出たら一度切って折り返す、音声認証だけに頼らずワンタイムパスワードなどの多要素認証を併用するなどが推奨されます。AI 音声クローン詐欺で最新の手口を確認できます。