一个只使用 Agents' Last Exam 公开 demo API 的静态看板:152 个公开任务、341 行 leaderboard、任务软件与 CLI/GUI 形态的快速分类。
覆盖工程、医疗、金融、科研、视觉媒体、法律、交通等。
候选单位是 harness + model + variant。
公开榜单 full split 当前前排 pass rate 水位。
多数任务看文件、数值、工程产物、渲染或系统状态。
ALE 的设计更接近真实职业交付。它按 GDP / 职业经济价值覆盖任务:Moldex3D 仿真、Rhino 建模、临床统计、基因组 pipeline、财报解析、Kubernetes 排障、BPMN 流程、视频/音乐/3D 项目等。
Leaderboard 也不应看成裸模型排名。每一行都是 split + harness + model + variant 的 agent system 结果;harness、软件环境、工具桥接和超时策略都会影响得分。
| # | Split | Harness | Model | Variant | Pass | Avg | Passes / Tasks | Runs | Cost | Total time |
|---|