AEROS 的承诺,不是写出来的,
是测出来的。

三个 benchmark 落实运行时的生产承诺。每一个数都能从开源仓库里复现,每一张图都跟对应测试夹具一起发。

测试基线:2,239 项通过 · main 分支 0 失败 · 每个 PR 都跑 HR-1 identity-hash 回归。

Audit-first vs fail-open recovery

在四级 rollback 测试夹具上跑 200 trials,对比两种执行模式: audit-first(每次状态变更必须等 audit log 落盘后才提交)vs fail-open(动作先执行,audit 后补)。

下图每个小格代表一次 trial,绿色 = 回滚成功,红色 = 回滚失败。60ms 是 audit-first 模式每次调用付出的中位延迟。

audit-first fail-open 100% 200 / 200 次 25% 50 / 200 次 审计开销 p50: 60ms
结论

审计开销很小,审计缺口是致命的。60ms 的 p50 成本,把回滚成功率从 25% 拉到 100%。

来源:AEROS rollback 测试 样本:N=200

字节级一致回放(byte-identical replay)

同一个场景、同一份治理配置、同一个 frozen identity manifest 跑 N=100 次,每次取整段执行的 hash(含逐步决策、签名审计链、终态)做桶排。

下面这张直方图是真实输出:99 个桶全空,1 个桶塞下全部 100 次回放。Consolidation 路径里没有 RNG、没有 clock-as-input、没有 LLM。

100 50 0 100 众数 hash 49 个空桶 50 个空桶 不同输出 hash 不同输出 hash 数: 1 / 100
结论

确定性不是口号,是默认行为。Consolidator 走确定性 SQL 聚合,persona 引擎对每个事件签名,cursor 与 facts upsert 通过 outbox 原子提交。同输入,同输出,每次。

来源:AEROS 回放 benchmark 样本:N=100

Grounded planner 砍掉无效动作

V1 / V2 / V3 是三个 planner 变体,对身份 manifest 与当前能力集的 grounding 程度逐级提升。在固定任务集上度量"无效动作率"(被 watcher 回滚、重复或 no-op 的动作)。

V1 是无 grounding 基线。V3 读 identity manifest、当前生效 ECM registry、当前 persona — 在这个 envelope 内规划。下图是无效动作率的下降。

100% 75% 50% 25% 0 100% V1 无 grounding V2 能力感知 * 示意 25.4% V3 grounded −74.6% V3 vs V1 无效动作率: 少 3.9×
结论

Planner 接上身份信息,无效动作下降 3–4×。Identity manifest 不只是审计锚点,本身就是规划输入,省下来的算力远超它的成本。

来源:AEROS planner benchmark 变体:V1 / V2 / V3 验证:V1, V2, V3 PASS

这些数你自己跑一遍

每一项 benchmark 都在开源仓库里。clone、装、跑。

1. Clone 与安装

git clone https://github.com/s20sc/aeros-runtime
cd aeros-runtime
python -m venv .venv && source .venv/bin/activate
pip install -e .[dev]

2. 跑测试基线

pytest --tb=short -q \
  --ignore=tests/sim \
  --ignore=tests/runtime/test_franka_render_thread_safety.py
# 期望: ~2,239 passed, 3 skipped

3. 跑完整 benchmark 套件

pytest tests/benchmarks/ -v
# governance / evolution / fleet / runtime
# CI 在每个 PR 上跑 perf 门

当前数对应 frozen identity v0.9.0。v0.10.0 tag 切完后会同步更新。

想加自己的 benchmark?

下一个公开 benchmark 是 EmbodiedGovBench v2 — 一个公开的 governance 开销/回放确定性/恢复延迟测试套件,会在 v0.11.0 落地。RFC 已公开,欢迎贡献。