Перейти к содержимому
Медиа Про Айти
Меню
  • Зеленые технологии
  • Технологии
  • Гаджеты
  • Нейросети
  • Роботы
  • Интернет
Меню

Netflix запускает VOID – новый фреймворк для удаления объектов из видео

Опубликовано в 03.04.2026 от Редакция

Netflix представила VOID (Video Object Inpainting and Decomposition) — инновационный фреймворк, который переводит задачу удаления объектов из видео на рельсы латентной диффузии. В отличие от традиционных методов, VOID применяет механизм декомпозиции сцены. Модель разделяет видеопоток на слои фона и динамические маски, что позволяет нейросети не просто закрашивать пиксели, а реконструировать структуру сцены с учетом глубины и перспективы.

Техническое ядро VOID нацелено на решение проблемы темпоральной связности (temporal consistency), что является слабым местом большинства диффузионных моделей. Благодаря специфическим механизмам внимания и анализу межкадровых связей, модель минимизирует артефакты мерцания и «плавающих» текстур. По результатам сравнительных тестов VOID демонстрирует превосходство над текущим SOTA-решением ProPainter, обеспечивая более стабильное заполнение зон за маской даже при быстром движении камеры.

Архитектурно VOID спроектирована как гибкий пайплайн, который способен работать с масками любой сложности — от удаления мелких проводов до полной замены крупных объектов. Одной из ключевых особенностей стал поддержка поэтапного инференса, что позволяет сохранить детализацию текстур без потери общего контекста сцены. Разработчики реализовали проект на базе PyTorch с нативной совместимостью с экосистемой Diffusers, что упрощает интеграцию VOID в VFX-пайплайны.

Для развертывания модели «в один клик» потребуются серьезные ресурсы: запуск оптимизирован под GPU уровня NVIDIA A100 (40 ГБ VRAM). Однако предусмотрены сценарии оптимизации, такие как model_cpu_offload и sequential_cpu_offload, которые позволяют уместить инференс в 24 ГБ видеопамяти, доступно владельцам RTX 3090/4090. Исходный код и веса уже опубликованы на GitHub, что открывает возможности для создания инструментов голливудского уровня.

Это важный шаг в автоматизации трудоемкого этапа постпродакшена — ротоскопинга и клинапа. Открытость VOID позволяет использовать её как готовый инструмент или как базу для fine-tuning под задачи кинопроизводства. Netflix опубликовал нейросеть, которая помимо удаления объектов, их теней и отражений, также способна устранять физические последствия их присутствия в кадре.

Например, удалив машину за секунду до аварии, другая продолжит движение. Удаляя человека, держащего предмет, предмет не останется в воздухе. Работа пайплайна строится на объединении визуально-языковой и видео-диффузионной моделей. Первая создает маску для областей, которые должны изменить траекторию, в то время как вторая перерисовывает кадры с учетом физики. Для защиты от потери геометрии предусмотрен опциональный второй проход, фиксирующий форму предметов.

Нейросеть обучалась на синтетических датасетах Kubric и HUMOTO, а также доступно рабочее демо на GitHub и Hugging Face.

Навигация по записям

← Samsung Galaxy S26 FE: Наблюдаем за новыми характеристиками и тестами
Morbid Metal выйдет в ранний доступ 8 апреля с новым трейлером →

Популярное за неделю

Учредитель ООО "Клуб регионов", ИНН 6685155934

Генеральный директор: Чернокоз Ольга Валерьевна

info@gosrf.ru

+7 (495) 920-51-49

Политика в отношении обработки персональных данных

Согласие на обработку персональных данных

© 2026 Медиа Про Айти
Мы используем куки для наилучшего представления нашего сайта. Если Вы продолжите использовать сайт, мы будем считать что Вас это устраивает.