Google DeepMind представляет новую VLA модель Gemini Robotics для роботов

12 марта Google DeepMind анонсировали свою новую vision-language-action (VLA) модель Gemini Robotics на основе языковой модели Gemini 2.0. Эта модель интегрирует компьютерное зрение, обработку языка и физическое управление, позволяя роботам взаимодействовать с реальным миром.

Архитектура VLA включает три основных компонента: vision, которая распознает объекты, language, которая интерпретирует команды, и action, которая формирует инструкции для механических систем. Команда заявляет, что модель может легко адаптироваться к различным типам роботов, хотя обучение проводилось на базе двурукой платформы ALOHA-2. Также была показана версия Gemini, адаптированная для промышленного манипулятора Franka.

Для проекта разработана специальная vision-language модель, названная Gemini Robotics-ER, которая улучшает понимание окружающей среды в рамках робототехники. Эта модель акцентирует внимание на пространственном мышлении, что значительно расширяет функциональные возможности по сравнению с Gemini 2.0, включая такие возможности, как указание объектов и трехмерное распознавание.

Gemini Robotics-ER позволяет роботам динамически развивать новые навыки. Например, при взаимодействии с кофейной кружкой модель может определить, как правильно взять её и подойти к объекту, показывая высокую степень пространственного понимания.

Кроме того, Google DeepMind анонсировала, что рядом с VLA моделями возникают альтернативные подходы, такие как Thousand Brains Project, которые не зависят от языковых моделей. Gemini Robotics считается важным шагом для создания более адаптивных и полезных роботов, составляя основу следующих поколений.

Важным аспектом анонса стала возможность интеграции Gemini в гуманоидные роботы, что позволит им выполнять физические задачи в ответ на команды пользователей. Данная модель, как утверждается, может даже различать объекты по форме и цвету, например, упаковать продукты в контейнеры.

Основное внимание уделяется сотрудничеству Google с компаниями, такими как Apptronik, для разработки гуманоидных роботов, которые могут использовать новые возможности Gemini. Модель Gemini Robots-ER вскоре станет доступной для тестирования партнерам, таким как Boston Dynamics и Agile Robots. Точные сроки появления таких роботов пока остаются неизвестными.

Google также акцентирует внимание на мерах безопасности, заявляя, что новые модели способны оценивать безопасность выполнения действий на основе изученных сцен. Это позволит улучшить взаимодействие роботов с человеком, сохраняя высокие стандарты безопасности, при этом продолжая развивать область искусственного интеллекта.