07月

03日

  • 字节跳动开源 3 亿参数模型 VINCIE-3B,支持上下文连续图像编辑

    牛透社 7 月 3 日消息,字节跳动宣布开源 3 亿参数模型 VINCIE-3B,该模型基于内部 MM-DiT 架构开发,首次实现从单一视频数据中学习上下文感知的图像编辑能力,突破传统图像编辑局限,无需依赖复杂分割或修复模型生成训练数据。

    VINCIE-3B 技术亮点显著,采用视频驱动训练,降低数据准备成本;运用块因果扩散变换器确保信息高效流动与时间序列因果一致性;通过三重代理任务训练增强对动态场景和物体关系的理解;结合干净与噪声条件提升编辑质量。性能测试中,其在 KontextBench 等测试里达业界领先,推理效率比同类快约 8 倍。

    模型代码、权重及数据处理流程已在 GitHub 和 arXiv 发布,开发者可申请获取完整数据集。其适用于影视后期、品牌营销、游戏动画、社交媒体内容创作等场景,但也存在多轮编辑、语言支持及版权方面的局限。VINCIE-3B 发布标志图像编辑范式转变,巩固了字节跳动在 AI 创意工具领域的领先地位 。

意见反馈
返回顶部