Netflix представила VOID (Video Object Inpainting and Decomposition) — инновационный фреймворк, который переводит задачу удаления объектов из видео на рельсы латентной диффузии. В отличие от традиционных методов, VOID применяет механизм декомпозиции сцены. Модель разделяет видеопоток на слои фона и динамические маски, что позволяет нейросети не просто закрашивать пиксели, а реконструировать структуру сцены с учетом глубины и перспективы.
Техническое ядро VOID нацелено на решение проблемы темпоральной связности (temporal consistency), что является слабым местом большинства диффузионных моделей. Благодаря специфическим механизмам внимания и анализу межкадровых связей, модель минимизирует артефакты мерцания и «плавающих» текстур. По результатам сравнительных тестов VOID демонстрирует превосходство над текущим SOTA-решением ProPainter, обеспечивая более стабильное заполнение зон за маской даже при быстром движении камеры.
Архитектурно VOID спроектирована как гибкий пайплайн, который способен работать с масками любой сложности — от удаления мелких проводов до полной замены крупных объектов. Одной из ключевых особенностей стал поддержка поэтапного инференса, что позволяет сохранить детализацию текстур без потери общего контекста сцены. Разработчики реализовали проект на базе PyTorch с нативной совместимостью с экосистемой Diffusers, что упрощает интеграцию VOID в VFX-пайплайны.
Для развертывания модели «в один клик» потребуются серьезные ресурсы: запуск оптимизирован под GPU уровня NVIDIA A100 (40 ГБ VRAM). Однако предусмотрены сценарии оптимизации, такие как model_cpu_offload и sequential_cpu_offload, которые позволяют уместить инференс в 24 ГБ видеопамяти, доступно владельцам RTX 3090/4090. Исходный код и веса уже опубликованы на GitHub, что открывает возможности для создания инструментов голливудского уровня.
Это важный шаг в автоматизации трудоемкого этапа постпродакшена — ротоскопинга и клинапа. Открытость VOID позволяет использовать её как готовый инструмент или как базу для fine-tuning под задачи кинопроизводства. Netflix опубликовал нейросеть, которая помимо удаления объектов, их теней и отражений, также способна устранять физические последствия их присутствия в кадре.
Например, удалив машину за секунду до аварии, другая продолжит движение. Удаляя человека, держащего предмет, предмет не останется в воздухе. Работа пайплайна строится на объединении визуально-языковой и видео-диффузионной моделей. Первая создает маску для областей, которые должны изменить траекторию, в то время как вторая перерисовывает кадры с учетом физики. Для защиты от потери геометрии предусмотрен опциональный второй проход, фиксирующий форму предметов.
Нейросеть обучалась на синтетических датасетах Kubric и HUMOTO, а также доступно рабочее демо на GitHub и Hugging Face.
