月之暗面又开源了！杨植麟合著提出新Agent框架，旗舰模型得分超GPT-4o

景点排名 2025年08月14日 14:31 0 aa

智东西

编译 | 程茜

编辑 | 云鹏

智东西8月14日消息，本周二，一篇来自香港大学XLANG Lab 、月之暗面等多家机构联合署名的论文在arXiv发表，提出了一个用于构建和扩展的CUA（计算机使用Agent）开源框架OpenCUA，这一框架开源意味着用户可以高效、低门槛开发自主操作电脑的Agent。

香港大学计算机科学助理教授Tao Yu（余涛）为项目负责人，月之暗面、斯坦福大学、滑铁卢大学、卡内基梅隆大学的研究人员参与，月之暗面创始人、CEO杨植麟在作者名单之列。

研究人员开源OpenCUA的原因是，目前CUA系统的关键细节仍然处于闭源状态，为了扩展其辅助用户执行相应决策的应用能力，研究人员需要访问开源CUA框架来研究其能力、局限性和风险。

在此基础上，研究人员提出了这一用于扩展CUA数据和基础模型的综合开源框架。

该框架包括：无缝捕获人类计算机使用演示的注释基础设施；第一个跨越3个操作系统以及超200个应用程序和网站的大规模计算机使用任务数据集AgentNet；一个可扩展的、能将演示转换为具有反思性长思维链推理“状态-动作”对的工作流程。

该模型是基于Kimi-VL-A3B、Qwen2-VL-7B、Qwen2.5-VL-7B和Qwen2.5-VL-32B进行监督微调（SFT），获得了OpenCUA模型变体：OpenCUA-A3B、OpenCUA-Qwen2-7B、OpenCUA-7B和OpenCUA-2.5-32B。

其中旗舰模型OpenCUA-32B在CUA基准测试OSWorld-Verified上的平均成功率达到34.8%，达到开源模型新的SOTA，甚至超越了OpenAI CUA（GPT-4o）。

论文地址：https://arxiv.org/pdf/2508.09123

OpenCUA主页（工具、模型、数据集）：https://opencua.xlang.ai

一、查天气、做PPT任务轨迹清晰明了，表现超OpenAI、Kimi、Qwen多个模型

研究人员在项目主页展示了OpenCUA使用计算机执行的任务轨迹。

在VScode中安装扩展的任务轨迹：

查询英国曼彻斯特天气预报的任务轨迹：

制作PPT的任务轨迹：

在基础测试验证上，CUA基准测试OSWorld-Verify中，OpenCUA-32B的表现优于Qwen、Kimi、OpenAI、Claude等开源及闭源模型，在部分任务表现上，获得的分数低于Claude 3.7 Sonnet、Claude 4 Sonnet。

在离线部署方面，研究人员构建了计算机离线使用的Agent评估基准AgentNetBench，由从AgentNet数据集中选出的100个代表性任务组成，涵盖Windows和macOS平台以及不同的领域。

其中每项任务都经过研究人员手动审查，以细化目标并删除多余作，且由于计算机使用任务中有效作固有的多样性，研究人员在每个步骤中都手动提供了多个有效操作选项。

OpenCUA-7B、OpenCUA-32B的平均分数均优于OpenAI、Qwen等模型。

GUI定位能力也就是模型面对图形化界面（GUI），去识别按钮、菜单、输入框等视觉元素的能力。其中研究人员采用了OSWorld-G、Screenspot-V2、Screenspot-Pro三个基准，OpenCUA-2.5-72B的每个测试表现都远超其他模型。

二、简化数据收集流程，发布22.5K计算机使用任务数据集

对于该框架的具体实现方面，包含了如何收集高质量计算机使用Agent数据、形成数据集、高效扩展等。

首先，高效、准确的注释对于收集高质量的计算机使用Agent数据至关重要，但现有的工具不支持非技术用户自然、跨平台的任务记录，因此研究人员开发了用户友好的注释工具AgentNet Tool，该工具可以简化计算机使用演示的收集和验证，在注释者的个人计算机上运行并在后台记录演示。

AgentNet Tool可捕获跨Windows、macOS和Ubuntu三大操作系统的用户交互，能记录屏幕视频、鼠标、键盘事件和元数据，从而扩展收集真实世界的计算机使用演示。

其次，AgentNet Method可以将原始的用户演示处理成干净的、可学习的状态-动作轨迹，由此产生的轨迹包括内心独白式的思想和行动历史，使其适合视觉语言模型训练。

这些处理后的数据被整理到AgentNet数据集和AgentNetBench中。该数据集涵盖了100多个应用程序和200多个网站的各种开放领域任务。该基准测试提供任务指令、步骤历史记录和每个步骤的多个黄金标准作，以实现高效离线评估。

该数据集包含22.5K人工标注的计算机使用任务，包括Windows的12K、macOS的5K和Ubuntu系统的5K。这些任务涵盖140多个应用程序和190个网站，通常涉及多应用程序工作流程、专业工具和不常见的功能。

其研究论文提到，与以往的GUI数据集相比，AgentNet是第一个真实、复杂、多样、多模态的桌面轨迹级数据集。

OpenCUA的基本框架

最后，OpenCUA能使用反思性思维链推理、多图像历史和混合域数据在数据集上进行训练，它们可以在跨作系统的真实桌面环境中执行，以执行计算机使用任务。

值得一提的是，高Pass@N性能也表明OpenCUA-7B具有强大的测试时间扩展潜力。Pass@N是评估生成式模型在代码生成、程序合成、推理任务中性能的重要指标，用于衡量模型在多次尝试内生成正确结果的概率。

OpenCUA的Pass@N性能

结语：OpenCUA为计算机使用Agent规模化铺路

计算机使用Agent是一种能够通过与计算机图形用户界面（GUI）交互来自动执行数字任务的智能体，但由于数据稀缺、人工采集成高、难以私有化部署等痛点，使得其走向规模化应用落地有诸多瓶颈。

此次，OpenCUA在开源模型基础上进行监督微调获得模型变体，降低了计算机使用Agent的数据获取成本，并形成了跨三个操作系统、上百个应用和网页的数据集，对于其进一步调用多种工具、理解用户需求、高效任务执行等方面将提供助力。

华为官宣！麒麟9系+LCD大屏旗舰马上发布

DeepSeek-R2呼之将出，谁与争锋？

发表评论