NTTが発表したリアルタイム音声変換技術とは。理想の声や話し方に変換
最終更新日:
執筆者 : アイブリー編集部

NTTは、「もっと理想的な声で話したい・聞きたい」というニーズに応えるリアルタイム音声変換技術を開発したことを6月17日に発表しました。
まずは、Web会議やライブ配信で利用できるようにし、今後はスマートフォンやVRデバイス上での利用を想定してます。
リアルタイム音声変換技術とは?
リアルタイム音声変換技術は、話者の声を別の話者の声にリアルタイムで変換する技術です。発信する音声だけでなく、受信する音声も変換でき、声と話し方を好みのスタイルに変換します。
音声変換で、言語内容を保持しつつ、声の特徴(声質、抑揚、リズムなど)を変更することで、ネイティブに近い英語の流暢な発音や、説得力のあるスピーチ、緊張による声の震えの解消など、物理的・能力的・心理的な制約にとらわれないコミュニケーションの実現が期待されます。
想定される利用シーン
この技術は、様々なシーンでの活用が想定されています。例えば、Web会議やライブ配信では、ネイティブのような流暢な英語の発音や説得力のあるスピーチを実現したり、緊張による声の震えを解消したりすることができます。また、視聴者を魅了するような声に変換するといったことが可能です。
さらに、メタバースでは自身のアバターに合った声に変換し、コールセンターでは顧客からの電話の声を聞きやすく変換するなど、声で印象が大きく変わるシーンでのコミュニケー ションを円滑にする効果が期待されます。

技術の詳細をわかりやすく解説
このリアルタイム音声変換技術の鍵となるのは、深層学習による音声特徴量の高精度な抽出です。具体的には、以下の点が挙げられます。
- 高音質:従来の音声変換技術では、音質が劣化することが課題でしたが、NTTの新技術では音声特徴量の抽出処理を高度化し、元の音声に近い高音質を実現しています。
- 低遅延:リアルタイムでの音声変換には遅延が大きな課題となりますが、NTTは未来の音声信号をバッファする必要のない新しいモデルを開発し、低遅延を実現しています。これにより、リアルタイムのコミュニケーションでも違和感のないスムーズなやり取りが可能です。
- カスタマイズ性:ユーザーは、変換する声のスタイルを自由に選択でき、自分の好みに合わせて声や話し方を変えることができます。