SEAgent:通过自主经验学习实现自我进化的计算机使用智能体 SEAgent: Self-Evolving Computer Use Agent with Autonomous Learning from Experience
Key Points
提出SEAgent框架,使计算机使用智能体能通过自主探索和试错学习掌握新软件,性能超越现有方法23.2%。
Plain Language Summary
这个研究让AI能像人类一样自己摸索学习使用新软件,不需要人工教,通过不断尝试和总结经验来变得越来越厉害。
Detailed Analysis
当前基于大视觉语言模型的计算机使用智能体主要依赖人工标注数据,面对新型专业软件时表现不佳。特别是在缺乏人工标注的场景下,现有方法难以适应。这限制了智能体在真实复杂环境中的应用。因此,需要开发能够自主学习和进化的智能体框架。
SEAgent框架包含三个核心组件:1)世界状态模型用于逐步评估轨迹;2)课程生成器自动生成由简到难的任务序列;3)经验学习机制结合失败动作的对抗模仿和成功动作的组相对策略优化(GRPO)。采用专家到通才的训练策略,整合多个专业智能体的经验,最终形成一个能持续自主进化的通用智能体。
在OS-World的5个新软件环境中测试,SEAgent的成功率从基线UI-TARS的11.3%提升到34.5%,相对提升23.2%。最终的统一智能体性能超过了专业智能体在其专长软件上的表现。
SEAgent首次实现了计算机使用智能体的自主持续进化能力,通过创新的经验学习框架和课程生成机制,显著提升了智能体在新环境中的适应能力。这项工作为开发真正自主的AI助手奠定了基础,对智能体在复杂软件环境中的应用具有重要意义。