Benchmark 总览¶
这个目录记录 TAAC 里的 benchmark 口径,包括数据管道 cache 策略、accelerator 算子的逐项记录和 Triton / TileLang 算子路线图。每个独立 benchmark 页面都应该写清楚支持状态、可复现命令、关键参数、误差或吞吐口径和最近一次本地验收观察。
这里的数字不是长期事实。正式结论必须重新记录 commit、硬件、CUDA / PyTorch / TileLang 版本、完整命令和 JSON 输出。推荐输出到 outputs/benchmarks/,不要提交生成结果,除非要做一次明确的报告快照。
数据管道索引¶
| 主题 | CLI 入口 | 当前用途 | 页面 |
|---|---|---|---|
| PCVR smoke diagnostics | taac-plot-pcvr-diagnostics |
demo1000 下的运行成本、预测行为和稳定性图 | PCVR Smoke Diagnostics |
| Cache policies | taac-benchmark-pcvr-data-pipeline |
比较 lru/fifo/lfu/rr/opt 策略 |
Cache Policies |
算子索引¶
| 算子 | CLI --operator |
当前用途 | Backend 策略 | 页面 |
|---|---|---|---|---|
| RMSNorm | rms_norm |
normalization forward/backward microbenchmark | 由模型 runtime 的 RMSNorm backend 配置决定 | RMSNorm |
| LayerNorm | layer_norm |
affine LayerNorm forward/backward microbenchmark | 默认 torch;显式传 triton 才启用 accelerator,TileLang 待补 |
LayerNorm |
| Flash Attention | flash_attention |
attention forward/backward 和 mask 约束验证 | 由 sequence runtime 的 flash attention backend 配置决定 | Flash Attention |
| Embedding bag mean | embedding_bag_mean |
non-sequential sparse feature mean pooling | 默认 torch;显式传 tilelang、triton 或 cuembed 才启用 accelerator |
Embedding Bag Mean |
算子开发路线图¶
未接入 benchmark CLI 的候选算子、缺失 backend 和已有源码 TODO 统一记录在 Triton / TileLang 算子路线图。新增算子时,先补 runtime surface、torch reference 对照、CUDA 单测和 benchmark 页面,再把该算子加入上方索引。
通用命令入口:
输出 JSON 中优先看:
| 字段 | 含义 |
|---|---|
status |
ok、unsupported 或 error;unsupported 常见于 CPU、缺 TileLang、缺 Triton、缺 CUDA toolkit 或 cuEmbed JIT 不可用 |
resolved_backend |
实际使用的 backend |
step_time_ms_mean |
多次 repeat 后的平均单步耗时 |
compile_sec |
accelerator 首次 JIT 编译时间,不应混入稳态吞吐判断 |
max_abs_error / max_rel_error |
与 torch reference 的误差 |
新增算子页面模板¶
新增 --operator 后,在 docs/benchmark/ 下补一个单独页面,并把它加入本页索引和 zensical.toml 导航。建议直接复制下面模板:
---
icon: lucide/cpu
---
# Operator Name
## 支持记录
- Torch reference:...
- Accelerator backend:dtype、device、shape 和 mask 约束。
- 自动启用策略:...
## 推荐命令
```bash
uv run taac-benchmark-pcvr-tilelang-ops \
--operator ... \
--device cuda \
--dtype float16 \
--backends torch,tilelang,triton \
> outputs/benchmarks/operator_accelerators.json
```
## 最近验收观察
- 硬件 / commit / 环境:...
- 关键结果:...
- 不适用或风险:...