奈飞开源视频擦除模型VOID:不只删物体,还能重算剩余物体的物理运动
据 1M AI News 监测,奈飞研究院与保加利亚索菲亚大学 INSAIT 联合开发了 VOID(Video Object and Interaction Deletion),一个能从视频中移除物体并重新模拟剩余场景物理行为的 AI 框架。4 月 3 日以 Apache 2.0 许可证在 Hugging Face 开源,是奈飞研究院首个公开发布的 AI 工具。传统视频擦除工具擅长填补背景、修正阴影和反射,但遇到物体之间存在物理接触的场景(碰撞、支撑、推动)就会穿帮。VOID 的核心能力是理解物理因果:移除一排多米诺骨牌中间的一块,后续骨牌不会继续倒下;移除跳入泳池的人,水面不会溅起水花;移除持吉他的人,吉他会自然落地。技术管线分三层:1. Meta 的 SAM2 做物体分割,谷歌 Gemini 分析场景语义,生成四值「quadmask」,分别标记主体、重叠区、受影响区和背景,告诉模型不只该擦什么,还有哪些东西会因此改变2. 基于阿里巴巴 CogVideoX-Fun-V1.5-5b-InP(50 亿参数扩散 Transformer)微调的第一阶段推理,生成物理合理的反事实轨迹3. 可选的第二阶段「光流噪声稳定」,用第一阶段预测的运动初始化时间相关噪声,防止长片段中物体变形训练数据由两套物理模拟生成:约 1900 组 Kubric 刚体动力学数据和约 4500 组 HUMOTO 人体动捕数据,在 8 块 A100 80GB GPU 上完成训练。25 人偏好测试中,VOID 64.8% 的选择率大幅领先商业工具 Runway 的 18.4%。推理需要 40GB 以上显存(A100 级别),论文尚未经同行评审,奈飞也未宣布将其纳入制作流程。
