Benchmark 总览¶

这个目录记录 TAAC 里的 benchmark 口径，包括数据管道 cache 策略、accelerator 算子的逐项记录和 Triton / TileLang 算子路线图。每个独立 benchmark 页面都应该写清楚支持状态、可复现命令、关键参数、误差或吞吐口径和最近一次本地验收观察。

这里的数字不是长期事实。正式结论必须重新记录 commit、硬件、CUDA / PyTorch / TileLang 版本、完整命令和 JSON 输出。推荐输出到 outputs/benchmarks/，不要提交生成结果，除非要做一次明确的报告快照。

数据管道索引¶

主题	CLI 入口	当前用途	页面
PCVR smoke diagnostics	`taac-plot-pcvr-diagnostics`	demo1000 下的运行成本、预测行为和稳定性图	PCVR Smoke Diagnostics
Cache policies	`taac-benchmark-pcvr-data-pipeline`	比较 `lru/fifo/lfu/rr/opt` 策略	Cache Policies

算子索引¶

算子	CLI `--operator`	当前用途	Backend 策略	页面
RMSNorm	`rms_norm`	normalization forward/backward microbenchmark	由模型 runtime 的 RMSNorm backend 配置决定	RMSNorm
LayerNorm	`layer_norm`	affine LayerNorm forward/backward microbenchmark	默认 `torch`；显式传 `triton` 才启用 accelerator，TileLang 待补	LayerNorm
Flash Attention	`flash_attention`	attention forward/backward 和 mask 约束验证	由 sequence runtime 的 flash attention backend 配置决定	Flash Attention
Embedding bag mean	`embedding_bag_mean`	non-sequential sparse feature mean pooling	默认 `torch`；显式传 `tilelang`、`triton` 或 `cuembed` 才启用 accelerator	Embedding Bag Mean

算子开发路线图¶

未接入 benchmark CLI 的候选算子、缺失 backend 和已有源码 TODO 统一记录在 Triton / TileLang 算子路线图。新增算子时，先补 runtime surface、torch reference 对照、CUDA 单测和 benchmark 页面，再把该算子加入上方索引。

通用命令入口：

uv run taac-benchmark-pcvr-tilelang-ops --help

输出 JSON 中优先看：

字段	含义
`status`	`ok`、`unsupported` 或 `error`；`unsupported` 常见于 CPU、缺 TileLang、缺 Triton、缺 CUDA toolkit 或 cuEmbed JIT 不可用
`resolved_backend`	实际使用的 backend
`step_time_ms_mean`	多次 repeat 后的平均单步耗时
`compile_sec`	accelerator 首次 JIT 编译时间，不应混入稳态吞吐判断
`max_abs_error` / `max_rel_error`	与 torch reference 的误差

新增算子页面模板¶

新增 --operator 后，在 docs/benchmark/ 下补一个单独页面，并把它加入本页索引和 zensical.toml 导航。建议直接复制下面模板：

---
icon: lucide/cpu
---

# Operator Name

## 支持记录

- Torch reference：...
- Accelerator backend：dtype、device、shape 和 mask 约束。
- 自动启用策略：...

## 推荐命令

```bash
uv run taac-benchmark-pcvr-tilelang-ops \
  --operator ... \
  --device cuda \
  --dtype float16 \
  --backends torch,tilelang,triton \
  > outputs/benchmarks/operator_accelerators.json
```

## 最近验收观察

- 硬件 / commit / 环境：...
- 关键结果：...
- 不适用或风险：...

Benchmark 总览¶

数据管道索引¶

算子索引¶

算子开发路线图¶

新增算子页面模板¶

评论