AEROS 的承诺,不是写出来的,
是测出来的。
三个 benchmark 落实运行时的生产承诺。每一个数都能从开源仓库里复现,每一张图都跟对应测试夹具一起发。
Audit-first vs fail-open recovery
在四级 rollback 测试夹具上跑 200 trials,对比两种执行模式: audit-first(每次状态变更必须等 audit log 落盘后才提交)vs fail-open(动作先执行,audit 后补)。
下图每个小格代表一次 trial,绿色 = 回滚成功,红色 = 回滚失败。60ms 是 audit-first 模式每次调用付出的中位延迟。
审计开销很小,审计缺口是致命的。60ms 的 p50 成本,把回滚成功率从 25% 拉到 100%。
字节级一致回放(byte-identical replay)
同一个场景、同一份治理配置、同一个 frozen identity manifest 跑 N=100 次,每次取整段执行的 hash(含逐步决策、签名审计链、终态)做桶排。
下面这张直方图是真实输出:99 个桶全空,1 个桶塞下全部 100 次回放。Consolidation 路径里没有 RNG、没有 clock-as-input、没有 LLM。
确定性不是口号,是默认行为。Consolidator 走确定性 SQL 聚合,persona 引擎对每个事件签名,cursor 与 facts upsert 通过 outbox 原子提交。同输入,同输出,每次。
Grounded planner 砍掉无效动作
V1 / V2 / V3 是三个 planner 变体,对身份 manifest 与当前能力集的 grounding 程度逐级提升。在固定任务集上度量"无效动作率"(被 watcher 回滚、重复或 no-op 的动作)。
V1 是无 grounding 基线。V3 读 identity manifest、当前生效 ECM registry、当前 persona — 在这个 envelope 内规划。下图是无效动作率的下降。
Planner 接上身份信息,无效动作下降 3–4×。Identity manifest 不只是审计锚点,本身就是规划输入,省下来的算力远超它的成本。
这些数你自己跑一遍
每一项 benchmark 都在开源仓库里。clone、装、跑。
1. Clone 与安装
git clone https://github.com/s20sc/aeros-runtime cd aeros-runtime python -m venv .venv && source .venv/bin/activate pip install -e .[dev]
2. 跑测试基线
pytest --tb=short -q \ --ignore=tests/sim \ --ignore=tests/runtime/test_franka_render_thread_safety.py # 期望: ~2,239 passed, 3 skipped
3. 跑完整 benchmark 套件
pytest tests/benchmarks/ -v # governance / evolution / fleet / runtime # CI 在每个 PR 上跑 perf 门
当前数对应 frozen identity v0.9.0。v0.10.0 tag 切完后会同步更新。
想加自己的 benchmark?
下一个公开 benchmark 是 EmbodiedGovBench v2 — 一个公开的 governance 开销/回放确定性/恢复延迟测试套件,会在 v0.11.0 落地。RFC 已公开,欢迎贡献。