Agents' Last Exam · public explorer

ALE 公开任务与 Leaderboard 速览

一个只使用 Agents' Last Exam 公开 demo API 的静态看板：152 个公开任务、341 行 leaderboard、任务软件与 CLI/GUI 形态的快速分类。

说明：本页不是 ALE 官方页面；数据来自公开 API。任务操作形态是基于公开 software / summary 的启发式分类，用于快速扫题，不代表官方标签。

公开 split tasks

152

覆盖工程、医疗、金融、科研、视觉媒体、法律、交通等。

leaderboard rows

341

候选单位是 harness + model + variant。

full split top

24.0%

公开榜单 full split 当前前排 pass rate 水位。

verifier

Artifact

多数任务看文件、数值、工程产物、渲染或系统状态。

快速解读

ALE 的设计更接近真实职业交付。它按 GDP / 职业经济价值覆盖任务：Moldex3D 仿真、Rhino 建模、临床统计、基因组 pipeline、财报解析、Kubernetes 排障、BPMN 流程、视频/音乐/3D 项目等。

Leaderboard 也不应看成裸模型排名。每一行都是 split + harness + model + variant 的 agent system 结果；harness、软件环境、工具桥接和超时策略都会影响得分。

#	Split	Harness	Model	Variant	Pass	Avg	Passes / Tasks	Runs	Cost	Total time