Agents' Last Exam · public explorer

ALE 公开任务与 Leaderboard 速览

一个只使用 Agents' Last Exam 公开 demo API 的静态看板:152 个公开任务、341 行 leaderboard、任务软件与 CLI/GUI 形态的快速分类。

说明:本页不是 ALE 官方页面;数据来自公开 API。任务操作形态是基于公开 software / summary 的启发式分类,用于快速扫题,不代表官方标签。
公开 split tasks
152

覆盖工程、医疗、金融、科研、视觉媒体、法律、交通等。

leaderboard rows
341

候选单位是 harness + model + variant。

full split top
24.0%

公开榜单 full split 当前前排 pass rate 水位。

verifier
Artifact

多数任务看文件、数值、工程产物、渲染或系统状态。

快速解读

ALE 的设计更接近真实职业交付。它按 GDP / 职业经济价值覆盖任务:Moldex3D 仿真、Rhino 建模、临床统计、基因组 pipeline、财报解析、Kubernetes 排障、BPMN 流程、视频/音乐/3D 项目等。

Leaderboard 也不应看成裸模型排名。每一行都是 split + harness + model + variant 的 agent system 结果;harness、软件环境、工具桥接和超时策略都会影响得分。

公开任务全集

Leaderboard 全表

#SplitHarnessModelVariantPassAvgPasses / TasksRunsCostTotal time

各 Split Top 10