Компания Google представила две новые продвинутые ИИ-модели — Veo 2 для генерации видеороликов и Imagen 3 для создания изображений. Обе модели обещают пользователям мощные инструменты для создания качественного мультимедийного контента, способного удивлять реализмом и стилистическим разнообразием.
Модель Veo 2 позволяет создавать детализированные 4K-видео продолжительностью до нескольких минут. Она хорошо понимает физику реального мира и движения человека, что позволяет добиться высокой достоверности в видеоматериалах. Разработчики утверждают, что она превзошла большинство конкурентов в бенчмарке, обеспечив точность результатов с минимальным количеством артефактов. Тем не менее, Veo 2 всё ещё сталкивается с проблемами согласованности во времени в сложных сценах, и разработчики планируют устранить эти недостатки в будущих обновлениях.
Второй инструмент, Imagen 3, предлагает улучшенное качество изображений с улучшенным цветовым балансом и точностью цветопередачи по сравнению с предшествующей версией. Он также обеспечивает более широкий спектр стилей — от фотореализма до абстрактного искусства. Улучшения коснулись и понимания текстовых подсказок, что позволяет генерировать изображения с учетом естественного языка. Для повышения безопасности вся созданная контент помечается водяным знаком SynthID, позволяющим идентифицировать его как произведение, созданное ИИ.
Модель Veo 2 уже доступна в Google Labs с планами по расширению на платформу YouTube Shorts, тогда как Imagen 3 доступна всем пользователям через ImageFX. Согласно информации от Google DeepMind, Veo 2, который может генерировать видеоклипы длительностью более двух минут, представляет собой ответ на аналогичный инструмент от OpenAI — Sora. По словам создателей, “Veo 2 способен точно следовать как простым, так и сложным запросам, а также имитировать реальную физику и широкий спектр визуальных стилей”.
Кроме того, в экспериментальном инструменте VideoFX тоже доступен Veo 2, но с ограничением по разрешению до 720p и продолжительности видео в восемь секунд. В следующем шаге Google обещает увеличить число пользователей, которые получат доступ к этой модели на этой неделе. Эли Коллинз, вице-президент по продуктам в DeepMind, заявил, что Google планирует сделать Veo 2 доступным через свою платформу разработчиков Vertex AI по мере готовности к масштабированию. “Мы продолжим итерации на основе отзывов пользователей”, — отметил Коллинз, добавляя, что компания активно работает над интеграцией обновленных возможностей Veo 2 в различные аспекты экосистемы Google.
Тем временем, OpenAI выпустила свой видеогенератор Sora для широкой аудитории. Хотя Sora был представлен в феврале, доступ к нему имели только определенные пользователи. Этот инструмент, преобразующий текстовые подсказки в видео, хорош в создании ландшафтов и художественных эффектов, но испытывает трудности в реалистичном отображении физики.
