TAAC 2025 论文洞察
来源:arXiv:2604.04976v1 — 腾讯广告算法挑战赛 2025:全模态生成推荐
本文整理上届论文中对本届竞赛有直接参考价值的关键信息。
1. 数据集概览
1.1 TencentGR-1M(初赛)
| 统计项 |
值 |
| 用户数 |
1,001,845 |
| 广告数 |
4,783,154 |
| 最大序列长度 |
100 |
| 平均序列长度 |
91.06 |
| 候选广告数 |
660,000 |
| 行为分布 |
曝光 90.19% / 点击 9.81% |
1.2 TencentGR-10M(决赛)
| 统计项 |
值 |
| 用户数 |
10,139,575 |
| 广告数 |
17,487,676 |
| 最大序列长度 |
100 |
| 平均序列长度 |
97.29 |
| 候选广告数 |
3,637,720 |
| 行为分布 |
曝光 94.63% / 点击 2.85% / 转化 2.52% |
1.3 关键观察
- 序列极度密集:平均序列长度 91–97,接近 max=100 上限,说明大多数用户序列几乎满载
- 正样本极度稀疏:点击率 ~2.85–9.81%,转化率 ~2.52%,极端类别不平衡
- 候选集规模大:660K–3.6M 候选,检索难度极高
2. 特征模式(Feature Schema)
2.1 广告特征
| Feature ID |
类型 |
1M 基数 |
10M 基数 |
覆盖率 |
语义推测 |
| 100 |
S |
6 |
6 |
~100% |
广告类型 |
| 101 |
S |
51 |
53 |
~100% |
广告行业一级类目 |
| 102 |
S |
90,709 |
173,463 |
~99% |
广告主 ID |
| 112 |
S |
30 |
30 |
~98% |
投放位置/版位 |
| 114 |
S |
20 |
33 |
~100% |
优化目标类型 |
| 115 |
S |
691 |
988 |
~30% |
低覆盖特征(创意子类型?) |
| 116 |
S |
18 |
20 |
~100% |
广告形态 |
| 117 |
S |
497 |
558 |
~98% |
行业二级类目 |
| 118 |
S |
1,426 |
1,636 |
~98% |
行业三级类目 |
| 119 |
S |
4,191 |
4,950 |
~98% |
产品一级类目 |
| 120 |
S |
3,392 |
4,045 |
~98% |
产品二级类目 |
| 121 |
S |
2,135,891 |
5,041,300 |
~100% |
广告创意 ID(极高基数) |
| 122 |
S |
90,919 |
2,392 |
~100% |
未知(基数跨轮次差异大) |
2.2 用户特征
| Feature ID |
类型 |
基数 |
覆盖率 |
语义推测 |
| 103 |
S |
86–87 |
~100% |
年龄段 |
| 104 |
S |
2 |
~100% |
性别 |
| 105 |
S |
7 |
~86% |
教育程度 |
| 106 |
M |
14 |
~88% |
兴趣标签 |
| 107 |
M |
19 |
~36% |
低覆盖多值特征 |
| 108 |
M |
4 |
~16% |
极低覆盖多值特征 |
| 109 |
S |
3 |
~100% |
设备类型/网络 |
| 110 |
M |
2 |
~42% |
二值多值特征 |
2.3 多模态嵌入
| ID |
模型 |
模态 |
参数量 |
维度 |
说明 |
| 81 |
Bert-finetune |
文本 |
0.3B |
32 |
协同微调,维度极低 |
| 82 |
Conan-embedding-v1 |
文本 |
0.3B |
1,024 |
通用文本嵌入 |
| 83 |
gte-Qwen2-7B-instruct |
文本 |
7B |
3,584 |
大模型文本嵌入 |
| 84 |
hunyuan_mm_7B_finetune |
图像 |
7B |
4,096/323 |
协同微调多模态 |
| 85 |
QQMM-embed-v1 |
图像 |
8B |
3,584 |
图像嵌入 |
| 86 |
UniME-LLaVA-OneVision-7B |
图像 |
8B |
3,584 |
统一多模态嵌入 |
覆盖率特点:并非所有广告都有全部 6 个嵌入,缺失处理是重要工程问题。
3. 评估指标
3.1 初赛(仅点击)
\[\text{Score}_{\text{prelim}} = 0.31 \cdot \text{HitRate@10} + 0.69 \cdot \text{NDCG@10}\]
- 单一正样本(下一个点击广告)
- HitRate@10:正确项是否在 top-10
- NDCG@10:考虑排序位置的折损增益
3.2 决赛(点击 + 转化加权)
\[w(i) = \begin{cases} 0 & \text{仅曝光} \\ 1 & \text{点击} \\ \alpha=2.5 & \text{转化} \end{cases}\]
加权 NDCG@10 和加权 HitRate@10,转化事件权重是点击的 2.5 倍。
3.3 对本届的启示
- NDCG@10 权重 (0.69) 远大于 HitRate@10 (0.31),排序质量比召回更重要
- 转化加权意味着模型需要区分点击和转化的行为意图
- \(K=10\) 而非 \(K=100\),说明精排能力是核心竞争力
4. 冠军方案关键技术
4.1 第一名:Dense Qwen Backbone
| 技术 |
细节 |
| Backbone |
Dense Qwen(非 MoE) |
| 行为条件化 |
Per-position action-conditioning:Gated Fusion + FiLM + Attention Bias |
| 时间特征 |
绝对时间戳 + 相对间隔 + 会话结构 + 多频 Fourier 特征 |
| 语义 ID |
RQ-KMeans 量化多模态嵌入 → 离散 Semantic ID |
| 训练正则化 |
Random-\(k\) 策略 |
| 优化器 |
Muon + AdamW 混合优化 |
| 损失 |
静态形状 GPU 友好型 InfoNCE,大规模负采样 |
4.2 第二名:Encoder-Decoder + GNN
| 技术 |
细节 |
| 编码器 |
多个 Gated MLP + 图神经网络邻域聚合 |
| 解码器 |
SASRec 风格 Transformer (d=2048, L=8, H=8) |
| 语义 ID |
SVD-based RQ-KMeans |
| 训练策略 |
两阶段:曝光预训练 → 点击/转化微调 |
| 推理 |
ANN 检索 + 过滤已交互项 |
4.3 第三名:Scaling Laws 探索
| 技术 |
细节 |
| 核心发现 |
性能更多由规模驱动,而非模型复杂度 |
| 负采样 |
单 batch 38 万负样本,效果显著 |
| 缩放维度 |
负样本数 / 模型深度与宽度 / ID 嵌入维度 |
| 行为条件 |
PinRec 式 next-action-type conditioning |
4.4 技术创新奖:统一生成检索+排名
| 技术 |
细节 |
| 架构 |
Decoder-only + FlashAttention + SwiGLU + RMSNorm + RoPE + MoE |
| 语义 ID |
专用 Decoder Transformer + 碰撞解决机制 |
| 额外特征 |
多时间窗口 item 流行度统计 |
| 训练优化 |
混合精度 + 分离稀疏/密集优化器 + 分组 GEMM + KV Cache |
5. 对本届竞赛的核心启示
5.1 数据层面
- 行为类型区分是关键:所有顶级方案都显式建模了曝光/点击/转化的区别
- 时间特征价值极高:绝对时间 + 相对间隔 + 会话边界 + Fourier 编码是标配
- 多模态嵌入缺失处理:不是所有 item 都有全部 6 个模态嵌入
- 序列长度饱和:均值 91–97 / 最大 100,需要高效的长序列建模
5.2 模型层面
- 生成式范式:自回归 + InfoNCE + ANN 检索是主流 pipeline
- 语义 ID (Semantic ID) 是多模态信息整合的核心桥梁
- 大规模负采样(数十万级)带来显著收益
- Scaling Laws:在生成推荐中,规模(负样本数、模型容量)可能比架构创新更有效
5.3 工程层面
- 静态形状训练:GPU 友好,避免动态 batch 带来的开销
- 混合精度 (AMP):训练效率的基本要求
- 两阶段训练:先在全量曝光数据上预训练,再在点击/转化数据上微调
- 推理解耦:用户嵌入与候选嵌入分离计算,ANN 检索加速