Lego-Edit是什么
Lego-Edit 是小米开源的基于指令的图像编辑框架,通过多模态大语言模型(MLLM)的泛化能力,实现对图像的灵活编辑。采用模型级工具包,包含多种高效训练的模型,可执行多种图像操作。Lego-Edit 通过三阶段渐进式强化学习训练策略,先进行监督微调(SFT),再在特定任务上强化学习(RL),最后利用大量未标注指令进行额外 RL 训练,增强对灵活指令的处理能力。优势在于强大的泛化能力,能在多个基准测试中达到 SOTA 性能,支持局部、全局及多步骤编辑,接受掩码输入以精确控制编辑区域。Lego-Edit 无需重新训练即可整合新工具,方便扩展功能。

© 版权声明
文章版权归作者所有,未经允许请勿转载。