Недавнее исследование, проведенное Университетом Бен-Гурионом в Израиле, показало, что джейлбрейкинг ИИ-чат-ботов может сделать общедоступными опасные знания, которые они усвоили во время обучения. Это становится серьезной угрозой, так как многие современные чат-боты легко обмануть, заставляя их генерировать вредоносные и незаконные данные.
Джейлбрейкинг — это процесс, позволяющий пользователям обойти встроенные механизмы защиты чат-ботов, созданные для предотвращения генерации опасных ответов. Большие языковые модели (LLM), такие как ChatGPT и другие, обучены на обширных интернет-данных, однако несмотря на фильтрацию, они все равно могут усваивать информацию о противоправной деятельности, включая взломы и изготовление бомб.
В отчете сообщается, что такая уязвимость у большинства ИИ-чатов становится «неотложной и крайне тревожной» угрозой. «То, что раньше было доступно лишь преступным группам, теперь может оказаться в руках любого, кто имеет доступ к интернету», — предупреждают авторы исследования.
Исследователи выявили растущую опасность ненадежных LLM, которые либо разрабатываются без необходимости встраивать механизмы безопасности, либо взламываются активными пользователями. Некоторые из таких моделей рекламируются онлайн как «лишенные этических ограничений». Это создаёт серьезные риски в плане распространения информации, способствующей киберпреступлениям.
Для демонстрации проблемы ученые разработали универсальный джейлбрейк, который успешно скомпрометировал несколько популярных чат-ботов. С его помощью модели начали выдавать информацию на практически любые запросы, включая пошаговые инструкции по киберпреступлениям. «Шокирует, какими знаниями обладают эти системы», — высказывается эксперт по кибербезопасности Майкл Файр.
В отчете предложены меры по повышению безопасности, включая фильтрацию обучающих данных и внедрение мощных брандмауэров. Также поднимается вопрос о необходимости ответственного подхода со стороны разработчиков, которые должны воспринимать LLM как критически важные компоненты программного обеспечения.
На вопросы исследователей об уязвимости некоторые компании, разрабатывающие LLM, отреагировали с минимальным интересом. В OpenAI заявили, что их новые модели лучше защищены от джейлбрейкинга, в то время как Microsoft указали на свои усилия по предотвращению взломов. Тем не менее ответ некоторых других компаний был менее убедительным, что ставит под сомнение готовность индустрии принять меры по предотвращению дальнейших угроз во время использования ИИ-чат-ботов.
