Google DeepMind представляет две новые модели ИИ для роботов Gemini Robotics

Лаборатория Google DeepMind представила две новые модели ИИ, которые помогут роботам «выполнять более широкий спектр реальных задач, чем когда-либо прежде». Gemini Robotics — это модель «зрение-язык-действие», способная понимать новые ситуации без предварительного обучения. А Gemini Robotics-ER компания описывает как передовую модель, которая может «понимать наш сложный и динамичный мир» и управлять движениями робота. Модель Gemini Robotics построена на основе Gemini 2.0, последней версии флагманской модели ИИ от Google.

По словам руководителя отдела робототехники Google DeepMind Каролины Парада, Gemini Robotics «использует мультимодальное понимание мира Gemini и переносит его в реальный мир, добавляя физические действия в качестве новой модальности». Новая модель особенно сильна в трёх ключевых областях: универсальность, интерактивность и ловкость. Помимо способности обобщать новые сценарии, Gemini Robotics лучше взаимодействует с людьми и их окружением. Модель способна выполнять очень точные физические задачи, такие как складывание листа бумаги или открывание бутылки.

«Хотя в прошлом мы уже достигли прогресса в каждой из этих областей по отдельности, теперь мы приносим [резко] увеличивающуюся производительность во всех трёх областях с помощью одной модели», — заявила Парада. Gemini Robotics-ER разработана специально для робототехников и позволяет подключаться к существующим контроллерам низкого уровня, управляющим движениями робота. Подробный пример демонстрирует, как нужно определить, где находятся предметы на столе, открыть ланч-бокс и правильно их уложить.

Разработчики уделили серьёзное внимание безопасности. Исследователь Google DeepMind Викас Синдхвани рассказал, что для этого используется «многоуровневый подход», при котором модели Gemini Robotics-ER обучаются оценивать, безопасно ли выполнять потенциальное действие в заданном сценарии. Кроме того, Google DeepMind разработала эталонные тесты и фреймворки для дальнейших исследований в области безопасности ИИ.

В текущий момент Google DeepMind совместно с компанией Apptronik разрабатывает «следующее поколение человекоподобных роботов». Система Gemini Robotics-ER доступна «доверенным тестировщикам», среди которых Agile Robots, Agility Robotics, Boston Dynamics и Enchanted Tools. «Мы полностью сосредоточены на создании интеллекта, который сможет понимать физический мир и действовать в этом физическом мире», — отметила Каролина Парада.

Напомним, что в сентябре 2024 года исследователи из Google DeepMind продемонстрировали метод обучения, позволяющий научить робота выполнять требующие определённой ловкости действия, такие как завязывание шнурков и починка других роботов. Анонс Gemini Robotics представляет собой значительный шаг вперёд в области робототехники и может стать прорывом в создании универсальных помощников, способных заменить человека в различных сферах.