跳转至

TAAC 2025 论文洞察

来源:arXiv:2604.04976v1 — 腾讯广告算法挑战赛 2025:全模态生成推荐

本文整理上届论文中对本届竞赛有直接参考价值的关键信息。


1. 数据集概览

1.1 TencentGR-1M(初赛)

统计项
用户数 1,001,845
广告数 4,783,154
最大序列长度 100
平均序列长度 91.06
候选广告数 660,000
行为分布 曝光 90.19% / 点击 9.81%

1.2 TencentGR-10M(决赛)

统计项
用户数 10,139,575
广告数 17,487,676
最大序列长度 100
平均序列长度 97.29
候选广告数 3,637,720
行为分布 曝光 94.63% / 点击 2.85% / 转化 2.52%

1.3 关键观察

  • 序列极度密集:平均序列长度 91–97,接近 max=100 上限,说明大多数用户序列几乎满载
  • 正样本极度稀疏:点击率 ~2.85–9.81%,转化率 ~2.52%,极端类别不平衡
  • 候选集规模大:660K–3.6M 候选,检索难度极高

2. 特征模式(Feature Schema)

2.1 广告特征

Feature ID 类型 1M 基数 10M 基数 覆盖率 语义推测
100 S 6 6 ~100% 广告类型
101 S 51 53 ~100% 广告行业一级类目
102 S 90,709 173,463 ~99% 广告主 ID
112 S 30 30 ~98% 投放位置/版位
114 S 20 33 ~100% 优化目标类型
115 S 691 988 ~30% 低覆盖特征(创意子类型?)
116 S 18 20 ~100% 广告形态
117 S 497 558 ~98% 行业二级类目
118 S 1,426 1,636 ~98% 行业三级类目
119 S 4,191 4,950 ~98% 产品一级类目
120 S 3,392 4,045 ~98% 产品二级类目
121 S 2,135,891 5,041,300 ~100% 广告创意 ID(极高基数)
122 S 90,919 2,392 ~100% 未知(基数跨轮次差异大)

2.2 用户特征

Feature ID 类型 基数 覆盖率 语义推测
103 S 86–87 ~100% 年龄段
104 S 2 ~100% 性别
105 S 7 ~86% 教育程度
106 M 14 ~88% 兴趣标签
107 M 19 ~36% 低覆盖多值特征
108 M 4 ~16% 极低覆盖多值特征
109 S 3 ~100% 设备类型/网络
110 M 2 ~42% 二值多值特征

2.3 多模态嵌入

ID 模型 模态 参数量 维度 说明
81 Bert-finetune 文本 0.3B 32 协同微调,维度极低
82 Conan-embedding-v1 文本 0.3B 1,024 通用文本嵌入
83 gte-Qwen2-7B-instruct 文本 7B 3,584 大模型文本嵌入
84 hunyuan_mm_7B_finetune 图像 7B 4,096/323 协同微调多模态
85 QQMM-embed-v1 图像 8B 3,584 图像嵌入
86 UniME-LLaVA-OneVision-7B 图像 8B 3,584 统一多模态嵌入

覆盖率特点:并非所有广告都有全部 6 个嵌入,缺失处理是重要工程问题。


3. 评估指标

3.1 初赛(仅点击)

\[\text{Score}_{\text{prelim}} = 0.31 \cdot \text{HitRate@10} + 0.69 \cdot \text{NDCG@10}\]
  • 单一正样本(下一个点击广告)
  • HitRate@10:正确项是否在 top-10
  • NDCG@10:考虑排序位置的折损增益

3.2 决赛(点击 + 转化加权)

\[w(i) = \begin{cases} 0 & \text{仅曝光} \\ 1 & \text{点击} \\ \alpha=2.5 & \text{转化} \end{cases}\]

加权 NDCG@10 和加权 HitRate@10,转化事件权重是点击的 2.5 倍

3.3 对本届的启示

  • NDCG@10 权重 (0.69) 远大于 HitRate@10 (0.31),排序质量比召回更重要
  • 转化加权意味着模型需要区分点击和转化的行为意图
  • \(K=10\) 而非 \(K=100\),说明精排能力是核心竞争力

4. 冠军方案关键技术

4.1 第一名:Dense Qwen Backbone

技术 细节
Backbone Dense Qwen(非 MoE)
行为条件化 Per-position action-conditioning:Gated Fusion + FiLM + Attention Bias
时间特征 绝对时间戳 + 相对间隔 + 会话结构 + 多频 Fourier 特征
语义 ID RQ-KMeans 量化多模态嵌入 → 离散 Semantic ID
训练正则化 Random-\(k\) 策略
优化器 Muon + AdamW 混合优化
损失 静态形状 GPU 友好型 InfoNCE,大规模负采样

4.2 第二名:Encoder-Decoder + GNN

技术 细节
编码器 多个 Gated MLP + 图神经网络邻域聚合
解码器 SASRec 风格 Transformer (d=2048, L=8, H=8)
语义 ID SVD-based RQ-KMeans
训练策略 两阶段:曝光预训练 → 点击/转化微调
推理 ANN 检索 + 过滤已交互项

4.3 第三名:Scaling Laws 探索

技术 细节
核心发现 性能更多由规模驱动,而非模型复杂度
负采样 单 batch 38 万负样本,效果显著
缩放维度 负样本数 / 模型深度与宽度 / ID 嵌入维度
行为条件 PinRec 式 next-action-type conditioning

4.4 技术创新奖:统一生成检索+排名

技术 细节
架构 Decoder-only + FlashAttention + SwiGLU + RMSNorm + RoPE + MoE
语义 ID 专用 Decoder Transformer + 碰撞解决机制
额外特征 多时间窗口 item 流行度统计
训练优化 混合精度 + 分离稀疏/密集优化器 + 分组 GEMM + KV Cache

5. 对本届竞赛的核心启示

5.1 数据层面

  1. 行为类型区分是关键:所有顶级方案都显式建模了曝光/点击/转化的区别
  2. 时间特征价值极高:绝对时间 + 相对间隔 + 会话边界 + Fourier 编码是标配
  3. 多模态嵌入缺失处理:不是所有 item 都有全部 6 个模态嵌入
  4. 序列长度饱和:均值 91–97 / 最大 100,需要高效的长序列建模

5.2 模型层面

  1. 生成式范式:自回归 + InfoNCE + ANN 检索是主流 pipeline
  2. 语义 ID (Semantic ID) 是多模态信息整合的核心桥梁
  3. 大规模负采样(数十万级)带来显著收益
  4. Scaling Laws:在生成推荐中,规模(负样本数、模型容量)可能比架构创新更有效

5.3 工程层面

  1. 静态形状训练:GPU 友好,避免动态 batch 带来的开销
  2. 混合精度 (AMP):训练效率的基本要求
  3. 两阶段训练:先在全量曝光数据上预训练,再在点击/转化数据上微调
  4. 推理解耦:用户嵌入与候选嵌入分离计算,ANN 检索加速

评论