Google Deepmind представила две новые модели искусственного интеллекта, ориентированные на улучшение взаимодействия роботов с физическим окружением. Обе системы построены на базе мультимодальной модели Gemini 2.0, что позволяет им обрабатывать команды на естественном языке и реагировать на новые ситуации.
Первая модель, Gemini Robotics, функционирует как продвинутая Vision-Language-Action система, значительно улучшая управление роботами. Она способна адаптироваться к незнакомым объектам и условиям, что продемонстрировано в ходе тестирования, где робот выполнял задачи, такие как складывание оригами и упаковка продуктов. Gemini Robotics также показывает супер высокую производительность при решении задач обобщения, более чем вдвое превышая предыдущие версии.
Вторая модель, Gemini Robotics-ER, идет дальше, интегрируя пространственное восприятие с программированием для более точного взаимодействия с объектами. Например, она может точно рассчитать, как схватить ручку кофейной кружки, обеспечивая безопасность при выполнении задач. По данным Google Deepmind, Robotics-ER демонстрирует эффективность в два-три раза выше стандартной Gemini 2.0.
Для управления поведением роботов разработана специальная структура, использующая простой язык для определения правил. Google также выпустила набор данных ASIMOV для поддержки исследователей в оценке безопасности роботов в реальных условиях. Партнеры, такие как Apptronik и Boston Dynamics, вносят свой вклад в развитие и тестирование этих технологий.
Глава отдела робототехники Google DeepMind, Каролина Парада, отметила, что новые системы обеспечивают значительные улучшения по трем параметрам: обобщению, адаптивности и ловкости. Эти аспекты являются необходимыми для создания более полезных и функциональных роботов, которые смогут справляться с изменяющимися условиями. Например, тесты показали, что Gemini лучше реагируют на новые инструкции, адаптируясь к изменению задач.
Отметим, что модели Gemini обучаются на высококачественных данных, что позволяет им добиваться выдающихся результатов в специфических задачах. Однако эксперты предупреждают, что эти навыки могут быть не универсальными и требуют дополнительного обучения для широкого применения.
Системы безопасности, внедренные в Gemini Robotics-ER, включают методы предотвращения столкновений и оценки рисков, что позволяет моделям эффективно оценивать безопасность своих действий в различных сценариях. Этот многоуровневый подход к безопасности подтвержден успешными тестами, где модели отвечали правильно на сценарные вопросы о потенциально опасных ситуациях.
