Alibaba анонсировала обновленную версию своей мультимодальной модели Qwen3-Omni-Flash. Эта модель способна воспринимать текст, изображения, аудио и видео, а также взаимодействовать с пользователями голосом в реальном времени. По основным аудио-бенчмаркам модель демонстрирует результаты на уровне Gemini 2.5 Pro, опережая GPT-4o, который остаётся основным голосовым ассистентом в ChatGPT.
В частности, Qwen3-Omni-Flash показывает рекордно низкие показатели ошибок распознавания речи (ASR): 2,74% на английском и 2,19% на китайском языках. Эти цифры превосходят результаты Gemini 2.5 Pro (2,94% и 2,71%) и GPT-4o (3,32% и 2,44%). На более сложных задачах, таких как распознавание вокала в песнях, Qwen демонстрирует ещё большее преимущество, с 5,85% ошибок по сравнению с 9,85% и 11,87% у конкурентов.
Важно отметить, что количество поддерживаемых голосов в Qwen3-Omni-Flash увеличилось с 17 до 49. Эти голоса не только различаются по тембру, но и представляют собой полноценные «персонажи» с уникальными характерами, возрастами и манерами речи. Модель поддерживает десять языков для озвучивания и 19 языков для распознавания, включая такие как арабский, турецкий и кантонский. Alibaba также подчеркивает значительное улучшение способности модели следовать инструкциям.
Что касается ценовой политики, то Qwen3-Omni-Flash предлагает значительно более доступные тарифы. Она стоит $0,43 за миллион входных токенов и $2 за миллион выходных. Для сравнения, GPT-4o оценивается в $2,50 и $10 соответственно, а Gemini 2.5 Pro — от $1,25 до $2,50 на входе и $10-15 на выходе. Таким образом, преимущества Qwen в цене составляют от 3 до 5 раз.
Новый продукт доступен только через Qwen API и сервисы Alibaba Cloud, при этом открытые веса модели пока не были выпущены. Основная цель данного обновления – соответствие требованиям, выдвигаемым правительством Китая о запрете на использование иностранных ИИ-чипов в госфинансируемых проектам, что подчеркивает значимость отечественных технологий.
С появлением Qwen3-Omni-Flash Alibaba делает шаг в направлении создания более слаженного и мощного инструмента для различных мультимодальных задач, что может оказать значительное влияние на рынок ИИ.
