NTTが発表、理想の声や話し方に変換できるリアルタイム音声変換技術とは

NTTは、「もっと理想的な声で話したい・聞きたい」というニーズに応えるリアルタイム音声変換技術を開発したことを6月17日に発表しました。

NTTは、「もっと理想的な声で話したい・聞きたい」というニーズに応えるリアルタイム音声変換技術を開発したことを6月17日に発表しました。
まずは、Web会議やライブ配信で利用できるようにし、今後はスマートフォンやVRデバイス上での利用を想定してます。

リアルタイム音声変換技術とは?

リアルタイム音声変換技術は、話者の声を別の話者の声にリアルタイムで変換する技術です。発信する音声だけでなく、受信する音声も変換でき、声と話し方を好みのスタイルに変換します。

音声変換で、言語内容を保持しつつ、声の特徴(声質、抑揚、リズムなど)を変更することで、ネイティブに近い英語の流暢な発音や、説得力のあるスピーチ、緊張による声の震えの解消など、物理的・能力的・心理的な制約にとらわれないコミュニケーションの実現が期待されます。

想定される利用シーン

この技術は、様々なシーンでの活用が想定されています。例えば、Web会議やライブ配信では、ネイティブのような流暢な英語の発音や説得力のあるスピーチを実現したり、緊張による声の震えを解消したりすることができます。また、視聴者を魅了するような声に変換するといったことが可能です。

さらに、メタバースでは自身のアバターに合った声に変換し、コールセンターでは顧客からの電話の声を聞きやすく変換するなど、声で印象が大きく変わるシーンでのコミュニケーションを円滑にする効果が期待されます。

技術の詳細をわかりやすく解説

このリアルタイム音声変換技術の鍵となるのは、深層学習による音声特徴量の高精度な抽出です。具体的には、以下の点が挙げられます。

  1. 高音質:従来の音声変換技術では、音質が劣化することが課題でしたが、NTTの新技術では音声特徴量の抽出処理を高度化し、元の音声に近い高音質を実現しています。
  2. 低遅延:リアルタイムでの音声変換には遅延が大きな課題となりますが、NTTは未来の音声信号をバッファする必要のない新しいモデルを開発し、低遅延を実現しています。これにより、リアルタイムのコミュニケーションでも違和感のないスムーズなやり取りが可能です。
  3. カスタマイズ性:ユーザーは、変換する声のスタイルを自由に選択でき、自分の好みに合わせて声や話し方を変えることができます。

今後の展望

NTTは今後、実環境使用を想定した対雑音性向上や安定性向上などに取り組むほか、なりすましへの対策などにも取り組み、より安心して好みの音声でコミュニケーションできる未来を目指すとしています。

ソース:声と話し方を好みのスタイルに一瞬で変える~高音質かつ低遅延なリアルタイム音声変換~

電話課題の解決ならIVRy

電話自動応答サービス「IVRy(アイブリー)」は、だれでも使いやすいIVRサービスを提供しています。直感的に理解できる操作画面で、かんたんに導入ができます。

自由な音声テキストで電話対応品質を統一化

IVRyは、テキストを編集するだけで音声ガイダンスを作成可能。AIがテキストを読み上げ、自動で音声ガイダンスが生成されます。実際に人が話しているようにリアルな音声が、とても簡単に生成できるので、どんな企業にもピッタリのガイダンスを作成できます。急な変更にも対応しやすく、使い勝手が良いシステムになっています。

用件によって直接転送し、大事な電話に集中

IVRyでは分岐フローを好きなように作れるので、緊急の電話や、取引先、得意先などの電話を直接担当者へ転送できます。よくある質問には自動で回答できるので、大事な電話だけに集中できます。

通話録音が全て残るので、メモを取り忘れた場合でも大丈夫

IVRyでは、すべての通話を自動で録音しています。後で何度でも聞き返せるので、ミスを防ぐのに役立つほか、電話対応の品質チェックや、教育の教材としても活用できます。

月額2,980円~最短当日に導入できる

IVRyは、ほかにも電話業務を便利にする機能がたくさん詰まって、月額2,980円~という低コストで導入できます。申し込んだら最短で当日から使い始めることができるので、すぐに利用したいケースにも対応できます。電話対応品質の向上・維持を考えているなら、ぜひ合わせてIVRyをご検討ください。