来也科技OpenAPA框架刷新OSWorld纪录并开源
近日,来也科技 OpenAPA 框架在 Computer Use Agent 计算机操控智能体的权威基准 OSWorld 上取得 78.3% 的成绩,在 Agentic Framework 这一技术路线上位列全球第一。

OSWorld 是什么?Computer Use Agent 界的“高考”
如果说大语言模型的能力可以用 MMLU、GSM8K 这些考试衡量,那么AI 是否能像人一样操作电脑,标尺就是 OSWorld。这个由 HKUNLP、CMU、Waterloo 等顶尖机构联合发布的基准,已成为全球评估计算机操作智能体 的黄金标准——OpenAI、Anthropic、Google 发布最新模型时,均以 OSWorld 作为官方标尺。
OSWorld的“权威性”来自三点:
· 真实环境:在真实的 Ubuntu 和 Windows 系统中,用真实的 Chrome、VS Code、LibreOffice、Thunderbird 等应用完成任务,不是仿真、不是沙盒简化版
· 真实任务:361 个由人类专家精心设计的任务,覆盖办公、编程、浏览、设计、系统管理等日常工作场景
· 客观评分:每个任务都配有可执行的验证脚本,Agent 是否真正完成,由机器自动判定,不靠人工评价
让我们看一个来自 OSWorld 的真实任务:
一个熟练的办公人员完成它也需要不少时间。而对 Agent 来说,这个任务的难度至少体现在两点:
· 超过 60 步的连续操作:从打开邮件客户端、定位邮件、下载附件、查看已有文件命名、按规则重命名,到打开账本、找到正确的 sheet 和行列、按既有格式填写——任何一步出错都会连锁失败
· 全过程需要推理与判断:Agent 必须看懂账单的内容,总结已有 PDF 文件的命名规律,理解账本 Excel 中行、列及格式,而不是按照预设脚本机械执行
这只是 361 个任务中的一个。每一个百分点的提升,背后都是工程与算法的硬仗。
两条技术路线,OpenAPA 在其中一条上站到了最前面
要准确理解 OpenAPA 的成绩,需要先区分 OSWorld 上的两条主流技术路线:
· 专用模型(Specialized Model)路线:通过在 GUI 操作数据上做大规模后训练,得到“会操作计算机”的专用大模型,再搭配相对轻量的执行层
· 通用模型 + Agentic Framework 路线:使用通用大模型(如 Gemini、Claude、GPT),依靠框架设计、规划能力、多 Agent 协作、上下文工程等架构和工程创新驱动任务完成
两条路线各有所长:专用模型对特定能力更“熟练”,通用框架则具备更强的可迁移性、可组合性和可控性——同一套框架可以随着底层大模型的进步自动受益,也更适合企业根据自身业务与合规要求灵活调整框架。
OpenAPA 走的正是第二条路线,并在这条路线上以 78.3% 的成绩取得了全球第一。这意味着,在不依赖专门训练模型的前提下,仅通过架构与工程创新,Agent 框架+通用模型也能达到世界级的水平。
OpenAPA 的几个关键创新
仅靠“通用模型 + Agent 框架”,OpenAPA 为什么能在 OSWorld 上跑出全球领先的成绩?答案藏在它的架构设计里:
· 分层规划 + 动态反思:初始规划只定义“做什么”,不预先锁死“怎么做”;反思模块每一步基于最新截图重新校准,有效抑制长程任务中的“越走越偏”。
· Coding Agent 和 GUI Agent 协作:Coding Agent 负责数值计算、数据清洗、文件解析等“程序化”工作,GUI Agent 专注视觉理解和执行,两者之间相互验证、共享知识,兼顾效率与鲁棒性。
· 面向长程任务的上下文工程:通过滑动窗口 + Token 预算机制,动态保留最近的关键截图与推理轨迹,让 100 步级别的长任务稳定运行,Token 消耗降低 60% 以上。
· 推理与定位双模型解耦:主推理模型负责任务理解与决策,专用视觉模型负责像素级坐标定位。“思考”和“看”各司其职,避免单一模型兼顾两头但都做不到极致。
这些设计指向同一个目标:让“通用模型 + 通用框架”,在真实世界的复杂任务中跑出专用系统才具备的可靠性。后续我们将有文章展开介绍 OpenAPA 的架构设计理念。
从 RPA 到 APA,再到 OpenAPA
企业级流程自动化,正在经历一条清晰的演进路径。
来也科技最近将 RPA 升级为 APA(Agentic Process Automation,智能体流程自动化),通过将智能体能力融入流程自动化的开发、执行、维护全生命周期,让企业级自动化变得更智能、更灵活、也更容易落地——过去需要 IT 团队反复配置与维护的流程,如今可以由智能体基于目标自主完成,大幅降低了部署与变更的门槛。
而 OpenAPA 在 OSWorld 上探索的,是 APA 未来演进的下一条关键路径——以 Computer Use Agent 为核心的“视觉驱动、语义理解、自主规划、自我修复”范式,它不依赖固定的接口或脚本,而是像人一样“看屏幕、做判断、执行操作”,这将为 APA 带来了更强的界面理解、任务规划和流程自愈能力。
来也科技已连续五年作为中国唯一厂商入选 Gartner 机器人流程自动化(RPA)魔力象限,同时也是中国唯一入选 Gartner 智能文档处理(IDP)魔力象限和企业级对话式 AI 平台魔力象限的厂商。来也科技已经通过 APA 证明了“智能体 × 流程自动化”的工程化价值,而 OpenAPA 则在更前沿的方向上,为未来的 APA 产品持续注入更灵活、更智能的能力输入。两者共同构成了来也科技对“下一代企业级自动化”的判断与投入。
开源即刻可用
当 AI 学会看屏幕,企业流程自动化将不再止步于“按规则执行”,而是走向“按目标自主完成”——来也科技愿意在这条演进之路上,作为持续的推动者和同行者。
Computer Use Agent 的发展还在早期,因此我们将 OpenAPA 开源,期待更多社区开发者和我们一起共同探索,共同成长,共同推进 Computer Use Agent 技术的发展:
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
关键词:
责任编辑:孙知兵
免责声明:本文仅代表作者个人观点,与太平洋财富网无关。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有问题,请联系我们!
- 多重逻辑支持行业景气 电力ETF华夏投资价值凸显2026-05-08
- 来也科技OpenAPA框架刷新OSWorld纪录并开源2026-05-08
- 国际十大现货黄金正规平台品牌一览20262026-05-08
- 香港排名前五的外盘贵金属交易平台排名(2026版)2026-05-08
- 皇雅门窗南京工厂十周年盛典暨品牌升级峰会圆满成功!2026-05-08
- 2026年怎么选?这4点帮你筛出靠谱的炒黄金交易平台2026-05-08
- 康养塑形,门店必争!蝶姿兰“轻姿产”全球发布会圆满收官2026-05-08
- 高顿AI行研大赛如何帮助大学生建立商业洞察2026-05-08
- 国际前十主流版黄金期货交易平台排名榜单(2026最新版)2026-05-08
- 聚势·启新·向未来|“姆爱优生活”品牌启动会盛大举行2026-05-08
- 伊的家高级护肤达人王焕鑫老师:持续精进的专业护肤之路2026-05-08
- 普通人如何投资黄金?在哪个平台投资黄金合规安全?2026-05-08
- 告别 Excel 算佣!eRoad 以 AI 重构薪酬激励,佣金零误差2026-05-08
- 2026香港现货黄金交易平台排名(权威前十强)2026-05-08
- 在国内炒黄金用什么交易软件比较好?2026-05-08
- 合众远景 智能金融时代的领航者——解码核心优势2026-05-08
- 业绩拐点显现!海目星集团迈入“多极驱动”增长周期2026-05-08
- 91团帮:让消费“转”起来,让经济“暖”起来!2026-05-08
- 连连数字亮相第九届数字中国建设峰会 加速推进AI原生智能金融新基建落地2026-05-08
- 买房避坑|「壹沐」这个盘到底火在哪儿?2026-05-08
- 侨兴南粤聚合力 粤企出海添新能2026-05-08
- 网上保险平台怎么选?慧择保险网领跑全风险防御赛道2026-05-08
- 广东侨助出海专辑发布 覆盖两百余个优质项目2026-05-08
- 为什么外地考生慕名来潍坊?奇小丫个性化面试辅导真的香2026-05-08
- 国际前十专业外盘期货交易APP软件平台独家排名(最新版)2026-05-08
- 伦敦金交易所有哪些国际知名的(名单信息)2026-05-08
- 为全球生物医药严苛标准打造,ACROBiosystems百普赛斯SAFENSURE™全面布局生物医药安全性指标检测2026-05-08
- 嗯哼:深耕行业铸就实力,精准判断书写新生代传奇2026-05-08
- 黄金投资在哪开户?2026最新指南2026-05-08
- 侨乡优势赋能双向经贸 助力广东高质量发展2026-05-08
精彩推荐
- 一眼心动!苏超“八俊图”火爆出圈 定格足球“名场面”
- 关注:世名科技:江苏锋晖累计质押股数为2337万股
- 讯息:伦敦世乒赛团体赛开赛
- 图|乡村振兴注入“科技buff”
- “熊猫专列·锦绣天府号”在蓉首发 精彩看点
- 网易有道云笔记推出“LLM Wiki”技能套件
- 生意社:4月27日河南地区萤石市场行情暂稳|消息
- 自2020/21赛季以来,阿森纳首次实现联赛双杀纽卡
- 大摩:维持上海医药(02607)“增持”评级 目标价降至15.8港元_每日速递
- 微头条丨快闪|湖南“引才专列”开往重庆,超多心动offer等你来!
- PriceSeek重点提醒:利华益维远上调丙酮价格|观速讯
- 德国DAX指数连续四日收跌 地缘紧张与通胀压力拖累欧元区经济
- 队史首次闯进季后赛!宁波男篮官宣:与NBL场均20+8内线完成签约-视焦点讯
- 焦点快播:A股午评:创业板指跌1.83%,超4300股下跌,CPO概念股普遍回调
- 厦门金租2025年营收同比增长48% 实现净利1.64亿元 今日快看





中国互联网违法和不良信息举报中心