AI 行业正目睹一次剧烈迁移——大语言模型从文本生成器进化为能自主使用电脑的智能体。这些智能体可以像真人用户一样导航操作系统、与应用交互、完成复杂工作流。但我们怎么衡量它们真实世界的能力?这正是 OS-World 这类基准登场的原因——它在真实计算环境里提供了评估 AI 智能体的权威标尺。
本文拆解 OS-World 基准、分析 2026 年 3 月的当前榜单,并对比争夺榜首的头部 AI 智能体。
什么是 OS-World
OS-World 是 XLang AI 研究者开发的开创性基准,于 NeurIPS 2024 发表。它首次为评估多模态 AI 智能体提供了可扩展的真实计算环境。与孤立测试语言理解或代码生成的传统基准不同,OS-World 把 AI 智能体扔进真实操作系统——Ubuntu、Windows、macOS——并让它们完成 369 项真实世界任务。
这些任务横跨网页浏览、LibreOffice 与 VS Code 等桌面应用、跨应用工作流以及 OS 级文件操作。每项任务用自定义执行式脚本评分,保证客观可复现的结果。人类基线为 72.4%——这个数字 AI 智能体现在已经追上并超越。
2026 年 3 月榜单:AI 超越人类水平
作为里程碑事件,AI 智能体正式在 OS-World 上超越人类水平。最新榜单快照如下:
基础模型榜(自报)
Claude Opus 4.6(Anthropic)——72.7%。Anthropic 旗舰模型领跑所有 OS-World 基础模型,超过 72.4% 人类基线。Claude Opus 4.6 运用进阶多模态推理与视觉能力,解读屏幕内容、规划多步工作流、跨操作系统精确执行鼠标键盘动作。
Claude Sonnet 4.6(Anthropic)——72.5%。与更大的兄弟版本相当接近,Claude Sonnet 4.6 以更低成本(每百万 token 3/15 美元 vs 5/25)实现几乎相同的表现。对规模化部署 computer-use 智能体的企业是极具性价比的选择。
Qwen3 VL 235B A22B Instruct(阿里巴巴)——66.7%。阿里 Qwen3 视觉-语言模型证明开权重模型正在快速缩小与闭源系统的差距。以一小部分成本(每百万 token 0.30/1.49 美元)提供有竞争力的表现,面向预算敏感部署。
Claude Opus 4.5(Anthropic)——66.3%。上一代 Opus 依然极具竞争力,展示了 Anthropic 模型家族的快速改进节奏——从 4.5 到 4.6 跃升 6.4 个百分点。
Claude Sonnet 4.5(Anthropic)——61.4%。即便上一代 Sonnet 也胜过许多当前竞争者,展示 Anthropic 在 computer-use 任务上的一贯强项。
Claude Haiku 4.5(Anthropic)——50.7%。轻量 Haiku 仅以每百万 token 1/5 美元就实现 50%+ 成功率,让 AI computer-use 即便对成本敏感应用也可企及。
OS-World Verified 榜(智能体框架)
OS-World Verified 榜要求研究团队独立评估,保证结果完整性的最高标准:
GPT-5.4(OpenAI)——75.0%。OpenAI 最新模型领跑 Verified 榜,展示显著超过人类基线的强 computer-use 能力。
GPT-5.4 mini(OpenAI)——72.1%。小版本实现接近人类水平,且更具成本效率,凸显 OpenAI 的模型蒸馏强项。
UiPath Screen Agent(Claude Opus 4.5 驱动)——67.1%。来自企业级 RPA 板块的里程碑条目,UiPath 的 Screen Agent——由 Claude Opus 4.5 驱动——在 2026 年 1 月发布时获得 Verified 榜 #1。这是企业自动化平台首次拿下基准头名,弥合 AI 研究与真实业务自动化之间的缺口。
GPT-5.3 Codex(OpenAI)——64.7%。OpenAI 的代码专精模型展示对 computer-use 任务的强跨域迁移。
Qwen3.5-122B-A10B(阿里巴巴)——58.0%。阿里最新 Qwen3.5 系列在 Verified 基准上相比前几代显著提升。
除 OS-World 之外:GAIA 与 CUB 基准
OS-World 聚焦 computer-use 任务,其他基准对 AI 智能体能力提供互补视角:
GAIA(General AI Agent 基准)在需要推理、网页浏览、多模态处理、工具使用的真实世界问题上评估智能体。Claude Sonnet 4.5 目前在 GAIA 上以 74.6% 总分领跑,Anthropic 模型在普林斯顿 HAL Generalist Agent 框架内横扫前 6 名。GAIA 任务从简单 5 步查询到复杂多工具序列不等。
CUB(Computer Use Benchmark)在六个独立行业垂直上评估智能体表现,提供更偏业务视角的 AI 智能体能力评价。UiPath 与 Writer Action Agent 等企业玩家在 CUB 上展示强结果,暗示基准表现日益转化为真实业务价值。
塑造 2026 竞争的关键趋势
从最新基准结果里浮现出几条重要趋势:
- AI 达到人类水平。Claude Opus 4.6 72.7% 和 GPT-5.4 75.0% 均超过 OS-World 72.4% 人类基线。这是分水岭——AI 智能体现在能在真实电脑任务上匹配或胜过平均人类表现。
- Anthropic 主导基础模型。Anthropic 的 Claude 模型占据基础模型前 5 位,其模型还驱动 UiPath 的企业级领跑智能体。Claude 架构在需要视觉理解与精确动作执行的 computer-use 任务上表现尤其出色。
- 企业 RPA 与 AI 基准相遇。UiPath Screen Agent 拿下 Verified 榜 #1 意味着企业自动化平台现已是 AI 基准上的严肃竞争者。这种 RPA 专长与 AI 能力的交汇,正催生新一类可投产 computer-use 智能体。
- 开权重模型正在追平。阿里 Qwen3 VL 66.7% 证明开权重模型能以极低成本实现有竞争力的表现——让 computer-use AI 对更广范围机构可得。
- 成本效率成关键差异点。Claude Sonnet 4.6 以 Claude Opus 4.6 的 60% 成本实现 72.5%,Qwen3 VL 以仅 6% 成本达到 66.7%。对每天跑数千智能体任务的企业部署,每任务成本现已与原始表现同样重要。
这对企业意味着什么
AI 智能体在 OS-World 上已超越人类水平这件事,标志着企业采用的一个拐点。企业应考虑:
- 为例行桌面任务部署 AI computer-use 智能体现在切实可行——技术已达到生产级可靠性阈值。
- 审慎评估性价比权衡——Claude Sonnet 4.6 与 Qwen3 VL 以显著低于旗舰模型的成本提供接近头部的表现。
- 考虑 UiPath Screen Agent 这类企业级方案——把基准领跑 AI 与生产基础设施、监控、合规功能结合。
- 投资高质量评估与训练数据管线——好与伟大的智能体表现差距,日益落在数据质量上。
市场增长与未来展望
AI 智能体市场预计从 2025 年的 78.4 亿美元增长到 2030 年的 526.2 亿美元,CAGR 46.3%。随着 AI 智能体在标准化基准上超越人类表现,企业采用正快速加速。UiPath、Anthropic、OpenAI、阿里等公司正在 computer-use 能力上重金投入。
关注焦点正从原始基准表现转向真实部署挑战:可靠性、安全、成本效率、与现有企业工作流的集成。赛跑不再是 AI 智能体能不能做这份工作——而是它们能多快、多省地在规模上部署。
结语
2026 年 3 月标志着 AI 智能体正式在 OS-World 基准上超越人类水平。Claude Opus 4.6 72.7% 与 GPT-5.4 75.0% 已超 72.4% 人类基线,问题已不再是 AI 能不能有效使用电脑——而是企业如何最好地运用这种能力。
在 SyncSoftAI,我们帮机构导航这个高速演进的领域,提供专家级 AI 评估、数据服务与全栈 AI 方案。请关注本系列下一篇,我们会探讨提升 AI 智能体基准分的经验证策略。



