Netflix выпустил модель VOID для редактирования видео

Иллюстративное фото. © ArthurHidden, Freepik.com

Иллюстративное фото. © ArthurHidden, Freepik.com

Благодаря ИИ-модели для создателей контента открываются новые возможности, что позволяет им легко и быстро редактировать свои видеоматериалы.

Компания Netflix создала нейросеть VOID (Video Object and Interaction Deletion), которая удаляет объекты из видео и меняет физику окружения.

Эта модель позволяет пользователям указывать, какие элементы следует убрать, при этом сохранив реалистичность фона и взаимодействия объектов в кадре. VOID учитывает такие аспекты, как тени, отражения и освещение, что делает итоговый результат максимально правдоподобным.

Например, стандартные методы закрашивают область за удаленным объектом и корректируют тени и отражения, но не справляются с физическими взаимодействиями. VOID использует специальную четырехзначную маску (quadmask), которая размечает не только сам объект, но и зоны, на которые он влияет – в том числе предметы, которые он поддерживал или сдвигал. Для определения таких зон модель задействует мультимодальный ИИ (Gemini) и систему сегментации SAM2.

Технически VOID построена поверх CogVideoX-Fun – 5-миллиардного видеодиффузионного трансформера от Alibaba PAI. Модель обучали на синтетических парных видео: сцены с объектом и без него генерировались в Blender с физической симуляцией (датасет HUMOTO) и в движке Kubric от Google. Такой подход позволил получить «эталонные» примеры, где физика гарантированно корректна. Обучение проводилось на 8 GPU A100 80 ГБ, а для инференса требуется видеокарта с 40+ ГБ видеопамяти.