Перейти к содержимому
Медиа Про Айти
Меню
  • Зеленые технологии
  • Технологии
  • Гаджеты
  • Нейросети
  • Роботы
  • Интернет
Меню

VK представила RuModernBERT для обработки естественного русского языка

Опубликовано в 24.07.2025 от Редакция

Компания VK (бывшая Mail.ru Group) выложила в открытый доступ модель RuModernBERT для обработки естественного русского языка. Как отмечают разработчики, она понимает длинные тексты целиком, без разбиения на фрагменты и работает локально, без внешних API, что снижает нагрузку на инфраструктуру.

VK рассказала о том, что инженеры могут использовать RuModernBERT для задач в области обработки текста, включая извлечение информации, анализ тональности, поиск и ранжирование в приложениях и сервисах. Эта модель способна понять сложный или длинный запрос пользователя, например, в поисковой строке, и найти наиболее релевантную информацию, видео, товары или документы.

RuModernBERT была обучена на 2 триллионах токенов данных на русском, английском языках и коде с максимальной длиной контекста до 8,192 токенов. Для всех этапов обучения использованы различные источники данных, включая книги, статьи, посты и комментарии в социальных сетях, что позволяет адаптировать модель для работы с современным текстом и учитывать разговорную речь.

Модель доступна в нескольких версиях: на 150 миллионов параметров и облегчённая версия на 35 миллионов параметров. Также обновлены две дополнительные версии модели: USER и USER2, которые помогают инженерам лучше группировать и находить похожую информацию. В версии USER2 внедрена технология, позволяющая сократить объем данных почти без потери точности. Найти все версии модели можно на Hugging Face.

Благодаря современной архитектуре RuModernBERT работает быстрее аналогов: обучение и развертывание на конечных устройствах происходят на 10–20% быстрее, а обработка данных осуществляется в 2–3 раза быстрее на длинных контекстах по сравнению с ModernBERT. При оценке на валидационном датасете RuModernBERT показала лучшие результаты в области обработки естественного русского языка, чем существующие аналоги. Модель уже внедрена в продукты и сервисы VK, которыми ежедневно пользуются десятки миллионов людей.

Навигация по записям

← ArenaNet представляет новые элитные специализации для Guild Wars 2
StormWall и «Системный софт» объединяются для защиты от DDoS-атак →

Популярное за неделю

Учредитель ООО "Клуб регионов", ИНН 6685155934

Генеральный директор: Чернокоз Ольга Валерьевна

info@gosrf.ru

+7 (495) 920-51-49

Политика в отношении обработки персональных данных

Согласие на обработку персональных данных

© 2026 Медиа Про Айти
Мы используем куки для наилучшего представления нашего сайта. Если Вы продолжите использовать сайт, мы будем считать что Вас это устраивает.