Open AIが音声合成に新たな一歩 ナチュラルで感情豊かな読み上げを実現

こんにちは。

綾部です。

最近、動画コンテンツやアプリで「まるで人間みたいな声だな」と思う事がありませんか?

特にナビアプリや読み上げアシスタントを使っていると、機械的な声ではなく、どこか親しみを感じる声に変わってきたと気づく人も多いかもしれません。

実は今、音声合成技術の進化が加速していて、自然な表現や感情を込めた「ナチュラルな読み上げ」ができる時代が近づいてきています。

今回は、その中でも注目の「Open AI」の取り組みを紹介していきます。

ナチュラルな発話と感情表現を支える音声認識・音声合成モデル

2025年3月、OpenAIは新たな音声認識と音声合成のモデル群を発表されました。

参照:OpenAI、自然で感情豊かに文章読をみ上る音声合成モデル 書き起こしも強化(2025年3月21日時点)

この発表で大きな注目を集めたのが、「gpt-4o-transcribe」と「gpt-4o-mini-transcribe」という音声認識モデル、そして「gpt-4o-mini-tts」という音声合成モデルです。

従来の「Whisper」モデルに比べ、gpt-4o-transcribeは単語誤り率が改善され、発音の違いや雑音環境に強くなったとされています。

これにより、話し言葉のニュアンスをより正確に捉え、誤認識を減らすことが可能になったとのことです。

特に、多様なアクセント、速度変化のあるスピーチ、背景雑音が多いシーンでも高い精度を保てるのが特徴のようですね。

一方、音声合成のgpt-4o-mini-ttsでは、単なるテキストの読み上げだけでなく、「どのように話すか」というスタイルの指示ができるようになったそうです。

たとえば、「穏やか」「プロフェッショナル」「ベッドタイムストーリー風」といった指示に合わせて、声のトーンやリズムを自然に変えることが可能になっています。

これにより、ストーリーテリングやカスタマーサービス、ラジオコンテンツなど、さまざまな用途に応じた読み上げができるようになったそうです。

さらに、こうした技術はGPT-4oベースのアーキテクチャに基づいてモデルの小型化がされており、軽量ながらも高品質な会話を実現できるのも特徴のようです。

デモアプリ「openai.fm」で音声合成体験

OpenAIは、今回発表した音声合成モデルを気軽に試せるWebアプリ「openai.fm」も公開されています。

ここでは、声質や雰囲気を選びながら音声合成を体験できるのが大きな特徴です。

「どんな雰囲気で話したいか」という細かなニュアンスまで選べるため、単なるテキスト読み上げでは得られなかった新たな表現の可能性が広がっているようです。

また、作成した音声はダウンロードも可能だそうで、コンテンツ制作などにすぐ活用できる点も便利ですね。

今後は、機械的に聞こえがちだった音声合成も、細かな感情表現やシチュエーションに応じた調整ができることで、より人に寄り添った体験が可能になりそうですね。

音声アシスタントやナビゲーションだけでなく、教育、カスタマーサポートなど、さまざまな分野で「ナチュラルで感情豊かな音声合成」が広がっていくのが楽しみですね。