Компания Cloudflare разработала новый инструмент на основе искусственного интеллекта, предназначенный для борьбы с ботами, которые собирают данные с веб-сайтов. Этот ИИ способен запутывать автоматические системы сканирования и мешать им эффективно извлекать информацию.
Cloudflare обратила внимание на проблему, поскольку почти 1% всех запросов к веб-контенту, который она обрабатывает, поступает от ИИ-ботов. Предполагается, что эти боты собирают данные для обучения моделей искусственного интеллекта. Владельцы сайтов пытаются блокировать такие системы через файл robots.txt, настройки сервера или CAPTCHA, однако многие парсеры игнорируют эти ограничения, что приводит к лишней нагрузке на сайты и потенциальному использованию данных без согласия их создателей.
Вместо традиционной блокировки ботов Cloudflare применяет новый метод — так называемый «лабиринт ИИ». Когда система обнаруживает подозрительное сканирование, она перенаправляет ботов на специально сгенерированные страницы с бессмысленным, но убедительным контентом. Эти страницы создаются с помощью генеративного ИИ и выглядят достоверными, но не содержат реальной информации с защищаемого сайта.
«Ни один настоящий человек не пойдет на четыре ссылки вглубь лабиринта ерунды, созданной ИИ», — объясняют разработчики. Это помогает выявлять и идентифицировать парсеров, которые добавляются в черный список компании.
Cloudflare уверена, что такой подход не только мешает сбору данных, но и помогает лучше отслеживать ботов. Настоящий пользователь вряд ли будет углубляться в несколько уровней подобных страниц, в то время как автоматизированные системы продолжат это делать, что позволит компании эффективнее отслеживать несанкционированный трафик.
Компания также планирует усовершенствовать этот метод, сделав ссылки на такие страницы более органичными и незаметными для обычных пользователей. Клиенты Cloudflare уже могут активировать AI Labyrinth через свои консоли управления.
Журналисты отмечают, что теоретически владельцы сайтов могут попытаться отбиться от сканеров страниц при помощи файлов robots.txt и настроек веб-серверов, однако многие из них часто игнорируются. Растущий объем нежелательного трафика и использование данных без разрешения правообладателей уже стало причиной судебных разбирательств.
Система, предложенная Cloudflare, будет сдерживающим фактором для сканеров веб-контента, чьи ресурсы начнут использоваться впустую. Тем не менее, эксперты предупреждают, что подобные решения часто приводят к гонке вооружений в борьбе с автоматизированными системами сбора данных, и в Cloudflare уже задумываются о том, как оставаться на шаг впереди в этой ситуации.
