OpenAI представила исследовательскую версию ИИ-агента под названием Operator, который способен выполнять широкий спектр задач в интернете по запросу пользователей. Он может находить авиабилеты, подбирать товары и взаимодействовать с веб-страницами, используя текстовые команды, клики и прокрутку страниц.
Основу работы оператора составляет модель Computer-Using Agent, которая объединяет возможности GPT-4o и методы обучения с взаимодействием с пользовательским интерфейсом. Агент анализирует код веб-страниц и может имитировать действия виртуальной мыши и клавиатуры. Это позволяет ему эффективно взаимодействовать с веб-контентом без необходимости интеграции через API.
Operator может также самокорректироваться и передавать управление пользователю, если возникают сложности в процессе выполнения задач. Кроме того, он запрашивает разрешение на ввод конфиденциальной информации, такой как пароли или отправка писем, и отклоняет потенциально вредоносные запросы. Тем не менее, несмотря на свои возможности, агент испытывает трудности с более сложными интерфейсами и редактированием текста.
На данный момент доступ к инструменту открыт только для подписчиков ChatGPT Pro в США, тариф которого составляет 200 долларов в месяц. Ожидается, что в ближайшие недели OpenAI планирует внедрить Operator в тариф Plus. Агент уже доступен по адресу operator.chatgpt.com, и компания планирует расширить доступ к этой функции в будущем. В дальнейшем OpenAI планирует интегрировать этот функционал в ChatGPT и сделать его инструментом для разработчиков.
Работа системы основана на постоянном мониторинге экрана, что позволяет ей принимать решения о необходимых действиях и имитировать ввод. Хотя Operator показывает хорошие результаты при выполнении рутинных задач, тесты показали неоднозначные итоги, что свидетельствует о том, что система еще находится в стадии доработки. Для обеспечения безопасности пользователь должен подтверждать выполнение важных действий, таких как покупки, а также существуют ограничения на доступ к определённым веб-сайтам. Агент также включает меры по обеспечению конфиденциальности, такие как очистка данных при просмотре.
