В пятницу OpenAI анонсировала новую серию моделей AI для рассуждений под названием o3, которые, по словам стартапа, превосходят предыдущие версии, такие как o1. Улучшения были достигнуты благодаря масштабированию вычислений и новой парадигме безопасности, используемой для обучения этой серии. Компания также опубликовала исследование по делиберативному выравниванию, описывающее способы, которыми они гарантируют, что модели остаются согласованными с ценностями своих разработчиков.
OpenAI утверждает, что примененный метод успешно улучшил согласование модели o1 с принципами безопасности компании, снизив количество «небезопасных» ответов. Исследования безопасности AI становятся все более актуальными на фоне растущей популярности технологий искусственного интеллекта. Однако некоторые эксперты, включая Дэвида Сакса и Илона Маска, подчеркивают, что определенные меры безопасности можно рассматривать как цензуру, акцентируя внимание на субъективности таких решений.
Модели o1 и o3 работают по инновативной методике, которая позволяет им разбивать сложные запросы на более мелкие шаги, прежде чем давать ответ. После нажатия пользователем кнопки ввода ChatGPT, модели могут проводить внутреннее размышление, используя так называемую цепочку мыслей. Это позволяет обеспечивать более точные и безопасные ответы на чувствительные темы.
Одним из ключевых нововведений стало делиберативное выравнивание, которое позволяет моделям o1 и o3 использовать текст политики безопасности OpenAI во время генерации ответов. Например, если модель получает запрос на создание поддельного знака парковки для инвалидов, она сможет распознать эту ситуацию как угрозу безопасности и правильно отклонить просьбу.
Подход OpenAI к безопасности AI отличается от традиционных методов, так как теперь мероприятия по обеспечению безопасности проводятся во время вывода. Это позволяет моделям оперативнее адаптироваться к изменяющимся запросам и улучшать качество ответов. Несмотря на успешные результаты тестов, таких как 96,7% на экзамене AIME 2024, исследователям OpenAI придется преодолеть множество вызовов при внедрении этих новых технологий.
Делиберативное выравнивание также включает использование синтетических данных для обучения моделей, что позволяет избежать зависимости от ручной маркировки. Синтетические данные, созданные другими AI-моделями, помогают развивать точность и безопасность в рамках запрограммированных вопросов и ответов. Тем не менее, в компании осознают, что Disney, обрабатывая сложные и чувствительные запросы, могут возникнуть проблемы чрезмерного ограничения или упущения важных вопросов.
OpenAI планирует выпустить модель o3 в начале 2025 года, а информация о доступности o3 mini пока отсутствует. Представленные новшества могут помочь компании и другим разработчикам AI обеспечить соблюдение этических и безопасных стандартов в технологиях, расширяющихся по всему миру.
Как указали исследователи OpenAI, «делиберативное выравнивание – это первый подход, который напрямую обучает модель тексту ее спецификаций безопасности и обучает размышлять об этих спецификациях. Это приводит к более безопасным и контекстно-зависимым ответам».
