实测数据

AEROS 的承诺，不是写出来的，
是测出来的。

三个 benchmark 落实运行时的生产承诺。每一个数都能从开源仓库里复现，每一张图都跟对应测试夹具一起发。

测试基线：2,239 项通过 · main 分支 0 失败 · 每个 PR 都跑 HR-1 identity-hash 回归。

Benchmark 1

Audit-first vs fail-open recovery

在四级 rollback 测试夹具上跑 200 trials，对比两种执行模式： audit-first（每次状态变更必须等 audit log 落盘后才提交）vs fail-open（动作先执行，audit 后补）。

下图每个小格代表一次 trial，绿色 = 回滚成功，红色 = 回滚失败。60ms 是 audit-first 模式每次调用付出的中位延迟。

结论

审计开销很小，审计缺口是致命的。60ms 的 p50 成本，把回滚成功率从 25% 拉到 100%。

来源：AEROS rollback 测试样本：N=200

Benchmark 2

同一个场景、同一份治理配置、同一个 frozen identity manifest 跑 N=100 次，每次取整段执行的 hash（含逐步决策、签名审计链、终态）做桶排。

下面这张直方图是真实输出：99 个桶全空，1 个桶塞下全部 100 次回放。Consolidation 路径里没有 RNG、没有 clock-as-input、没有 LLM。

结论

确定性不是口号，是默认行为。Consolidator 走确定性 SQL 聚合，persona 引擎对每个事件签名，cursor 与 facts upsert 通过 outbox 原子提交。同输入，同输出，每次。

来源：AEROS 回放 benchmark 样本：N=100

Benchmark 3

V1 / V2 / V3 是三个 planner 变体，对身份 manifest 与当前能力集的 grounding 程度逐级提升。在固定任务集上度量"无效动作率"（被 watcher 回滚、重复或 no-op 的动作）。

V1 是无 grounding 基线。V3 读 identity manifest、当前生效 ECM registry、当前 persona — 在这个 envelope 内规划。下图是无效动作率的下降。

结论

Planner 接上身份信息，无效动作下降 3–4×。Identity manifest 不只是审计锚点，本身就是规划输入，省下来的算力远超它的成本。

来源：AEROS planner benchmark 变体：V1 / V2 / V3 验证：V1, V2, V3 PASS

复现

每一项 benchmark 都在开源仓库里。clone、装、跑。

# Public source coming soon — email hello@aerosbot.com for early access
python -m venv .venv && source .venv/bin/activate
pip install -e .[dev]

pytest --tb=short -q \
  --ignore=tests/sim \
  --ignore=tests/runtime/test_franka_render_thread_safety.py
# 期望: ~2,239 passed, 3 skipped

pytest tests/benchmarks/ -v
# governance / evolution / fleet / runtime
# CI 在每个 PR 上跑 perf 门

当前数对应 frozen identity v0.9.0。v0.10.0 tag 切完后会同步更新。

下一个公开 benchmark 是 EmbodiedGovBench v2 — 一个公开的 governance 开销/回放确定性/恢复延迟测试套件，会在 v0.11.0 落地。RFC 已公开，欢迎贡献。