Google представляет языковую модель Gemma 3, экономящую ресурсы при высокой точности

Компания Google объявила о запуске новой языковой модели Gemma 3, которая обещает достигать точности, сравнимой с DeepSeek R1, но с заметно меньшими вычислительными затратами. Для работы Gemma 3 достаточно всего одного графического процессора Nvidia H100, что делает ее значительно более доступной по сравнению с R1, для которого требуется целых 32 таких чипа.

Согласно информации от Google, новая модель также превосходит другие конкурентные модели, такие как Llama-405B и DeepSeek-V3, в тестах человеческих предпочтений. Это указывает на то, что Gemma 3 обеспечивает не только высокую производительность, но и оптимизацию процессов работы с текстом и кодом. Важно отметить, что модель предлагает различные конфигурации с количеством параметров от 1 до 27 миллиардов, что делает ее доступной для использования даже на менее мощных устройствах.

Преимущества Gemma 3 также включают в себя продвинутое обучение с использованием технологии «дистилляции» знаний. Это позволяет компактной модели перенимать возможности более крупных нейросетей, улучшая эффективность при меньших затратах. Модель была обучена с использованием нескольких методов оптимизации, таких как RLHF (обучение с подкреплением от человека) и RLMF (обучение с подкреплением от машины), что значительно увеличивает ее функциональность.

С предыдущей версией Gemma 2 новая модель получила улучшенное контекстное окно, которое увеличилось с 8 000 до 128 000 токенов, что позволяет ей анализировать более длинные текстовые фрагменты. Более того, Gemma 3 теперь поддерживает работу с мультимедиа, что делает ее многофункциональной, позволяя обрабатывать изображения и предоставляя возможность задавать вопросы о содержимом картинок. Также стоит отметить, что модель поддерживает более 140 языков, расширяя свои возможности по сравнению с предыдущей версией.

Корпорация Google подчеркивает важность обеспечения безопасности данных в своих моделях. Исследователи протестировали Gemma 3 и сделали вывод, что вероятность запоминания обучающих данных у этой модели ниже по сравнению с предшествующими версиями, что может снизить риск утечек информации. Данная особенность имеет большое значение для пользователей, которые беспокоятся о конфиденциальности своей информации.

Семейство Gemma 3 включает в себя несколько моделей, каждая из которых оптимизирована для специфических задач. Несмотря на компактные размеры, модели демонстрируют превосходные результаты по сравнению с более крупными языковыми моделями, такими как Llama-405B и DeepSeek-V3. Gemma 3 уже доступна через платформы Hugging Face, Kaggle и Google AI Studio, а образовательные учреждения могут получить специальные кредиты на ее использование, что делает ее доступной для широкого круга разработчиков и исследователей.

С запуском Gemma 3 Google продолжает движение в направлении создания эффективных и безопасных решений в области искусственного интеллекта, что может стать значительным шагом вперёд в развитии технологий машинного обучения и многозадачного взаимодействия.