奈飞开源视频擦除模型VOID：不只删物体，还能重算剩余物体的物理运动_快讯

据 1M AI News 监测，奈飞研究院与保加利亚索菲亚大学 INSAIT 联合开发了 VOID（Video Object and Interaction Deletion），一个能从视频中移除物体并重新模拟剩余场景物理行为的 AI 框架。4 月 3 日以 Apache 2.0 许可证在 Hugging Face 开源，是奈飞研究院首个公开发布的 AI 工具。传统视频擦除工具擅长填补背景、修正阴影和反射，但遇到物体之间存在物理接触的场景（碰撞、支撑、推动）就会穿帮。VOID 的核心能力是理解物理因果：移除一排多米诺骨牌中间的一块，后续骨牌不会继续倒下；移除跳入泳池的人，水面不会溅起水花；移除持吉他的人，吉他会自然落地。技术管线分三层：1. Meta 的 SAM2 做物体分割，谷歌 Gemini 分析场景语义，生成四值「quadmask」，分别标记主体、重叠区、受影响区和背景，告诉模型不只该擦什么，还有哪些东西会因此改变2. 基于阿里巴巴 CogVideoX-Fun-V1.5-5b-InP（50 亿参数扩散 Transformer）微调的第一阶段推理，生成物理合理的反事实轨迹3. 可选的第二阶段「光流噪声稳定」，用第一阶段预测的运动初始化时间相关噪声，防止长片段中物体变形训练数据由两套物理模拟生成：约 1900 组 Kubric 刚体动力学数据和约 4500 组 HUMOTO 人体动捕数据，在 8 块 A100 80GB GPU 上完成训练。25 人偏好测试中，VOID 64.8% 的选择率大幅领先商业工具 Runway 的 18.4%。推理需要 40GB 以上显存（A100 级别），论文尚未经同行评审，奈飞也未宣布将其纳入制作流程。

奈飞开源视频擦除模型VOID：不只删物体，还能重算剩余物体的物理运动

相关文章