OpenAI обновила голосовые модели для текста и речи с новыми возможностями

OpenAI представила обновлённые голосовые модели для преобразования текста в речь и обратно. Они уже доступны разработчикам через API, а также можно протестировать их на специальном сайте, где доступен ввод любого текста и выбор стиля озвучки — от профессионального до повествовательного и даже средневекового. Поддерживается также русский язык.

Новая система позволяет не только конвертировать текст в речь, но и настраивать интонацию, стиль и эмоциональность. Например, можно заставить модель говорить как вежливый оператор колл-центра или рассказчик детских сказок. Используются пресеты, но также доступна возможность вводить инструкции вручную.

Кроме того, OpenAI улучшила свою технологию распознавания речи. Новые модели gpt-4o-transcribe и gpt-4o-mini-transcribe обеспечивают более точную расшифровку аудиофайлов, снижая количество ошибок даже в сложных условиях — при наличии акцента, шуме или высокой скорости речи. Эти модели превосходят предыдущие версии Whisper и другие популярные решения.

Об этом компания сообщила в своем блоге, отметив, что обновленные голосовые модели на базе искусственного интеллекта GPT-4o преобразуют текст в аудио, а также транскрибируют аудио и распознают речь в реальном времени. Модель gpt-4o-mini-tts предлагает для озвучки 11 голосов с разными интонациями, стилем и тембром голоса, включая, например, голос пирата или спортивного тренера. У каждого голоса есть свои характеристики, которые можно менять, и доступно более 100 языков, включая русский.

Разработчики могут получить доступ к моделям через API. Протестировать озвучку текста можно на сайте openai.fm, где в бесплатной версии можно ввести до 1 000 символов. TechCrunch отметил, что новые модели OpenAI заменят её предыдущую разработку Whisper, выпущенную в 2022 году.

В марте OpenAI также открыла свободный доступ для зарегистрированных пользователей к продвинутому голосовому режиму Advanced Voice Mode на базе модели GPT-4o mini.