Перейти к содержимому
Медиа Про Айти
Меню
  • Зеленые технологии
  • Технологии
  • Гаджеты
  • Нейросети
  • Роботы
  • Интернет
Меню

OpenAI обновила голосовые модели для текста и речи с новыми возможностями

Опубликовано в 21.03.2025 от Редакция

OpenAI представила обновлённые голосовые модели для преобразования текста в речь и обратно. Они уже доступны разработчикам через API, а также можно протестировать их на специальном сайте, где доступен ввод любого текста и выбор стиля озвучки — от профессионального до повествовательного и даже средневекового. Поддерживается также русский язык.

Новая система позволяет не только конвертировать текст в речь, но и настраивать интонацию, стиль и эмоциональность. Например, можно заставить модель говорить как вежливый оператор колл-центра или рассказчик детских сказок. Используются пресеты, но также доступна возможность вводить инструкции вручную.

Кроме того, OpenAI улучшила свою технологию распознавания речи. Новые модели gpt-4o-transcribe и gpt-4o-mini-transcribe обеспечивают более точную расшифровку аудиофайлов, снижая количество ошибок даже в сложных условиях — при наличии акцента, шуме или высокой скорости речи. Эти модели превосходят предыдущие версии Whisper и другие популярные решения.

Об этом компания сообщила в своем блоге, отметив, что обновленные голосовые модели на базе искусственного интеллекта GPT-4o преобразуют текст в аудио, а также транскрибируют аудио и распознают речь в реальном времени. Модель gpt-4o-mini-tts предлагает для озвучки 11 голосов с разными интонациями, стилем и тембром голоса, включая, например, голос пирата или спортивного тренера. У каждого голоса есть свои характеристики, которые можно менять, и доступно более 100 языков, включая русский.

Разработчики могут получить доступ к моделям через API. Протестировать озвучку текста можно на сайте openai.fm, где в бесплатной версии можно ввести до 1 000 символов. TechCrunch отметил, что новые модели OpenAI заменят её предыдущую разработку Whisper, выпущенную в 2022 году.

В марте OpenAI также открыла свободный доступ для зарегистрированных пользователей к продвинутому голосовому режиму Advanced Voice Mode на базе модели GPT-4o mini.

Навигация по записям

← Google подает в суд на мошенников из-за 10 тыс. поддельных объявлений
Darkwinter Software анонсирует закрытый бета-тест аниме-шутера Project NET →

Популярное за неделю

Учредитель ООО "Клуб регионов", ИНН 6685155934

Генеральный директор: Чернокоз Ольга Валерьевна

info@gosrf.ru

+7 (495) 920-51-49

Политика в отношении обработки персональных данных

Согласие на обработку персональных данных

© 2025 Медиа Про Айти
Мы используем куки для наилучшего представления нашего сайта. Если Вы продолжите использовать сайт, мы будем считать что Вас это устраивает.