TAAC 2025 论文洞察¶

来源：arXiv:2604.04976v1 — 腾讯广告算法挑战赛 2025：全模态生成推荐

本文整理上届论文中对本届竞赛有直接参考价值的关键信息。

1. 数据集概览¶

1.1 TencentGR-1M（初赛）¶

统计项	值
用户数	1,001,845
广告数	4,783,154
最大序列长度	100
平均序列长度	91.06
候选广告数	660,000
行为分布	曝光 90.19% / 点击 9.81%

1.2 TencentGR-10M（决赛）¶

统计项	值
用户数	10,139,575
广告数	17,487,676
最大序列长度	100
平均序列长度	97.29
候选广告数	3,637,720
行为分布	曝光 94.63% / 点击 2.85% / 转化 2.52%

1.3 关键观察¶

序列极度密集：平均序列长度 91–97，接近 max=100 上限，说明大多数用户序列几乎满载
正样本极度稀疏：点击率 ~2.85–9.81%，转化率 ~2.52%，极端类别不平衡
候选集规模大：660K–3.6M 候选，检索难度极高

2. 特征模式（Feature Schema）¶

2.1 广告特征¶

Feature ID	类型	1M 基数	10M 基数	覆盖率	语义推测
100	S	6	6	~100%	广告类型
101	S	51	53	~100%	广告行业一级类目
102	S	90,709	173,463	~99%	广告主 ID
112	S	30	30	~98%	投放位置/版位
114	S	20	33	~100%	优化目标类型
115	S	691	988	~30%	低覆盖特征（创意子类型？）
116	S	18	20	~100%	广告形态
117	S	497	558	~98%	行业二级类目
118	S	1,426	1,636	~98%	行业三级类目
119	S	4,191	4,950	~98%	产品一级类目
120	S	3,392	4,045	~98%	产品二级类目
121	S	2,135,891	5,041,300	~100%	广告创意 ID（极高基数）
122	S	90,919	2,392	~100%	未知（基数跨轮次差异大）

2.2 用户特征¶

Feature ID	类型	基数	覆盖率	语义推测
103	S	86–87	~100%	年龄段
104	S	2	~100%	性别
105	S	7	~86%	教育程度
106	M	14	~88%	兴趣标签
107	M	19	~36%	低覆盖多值特征
108	M	4	~16%	极低覆盖多值特征
109	S	3	~100%	设备类型/网络
110	M	2	~42%	二值多值特征

2.3 多模态嵌入¶

ID	模型	模态	参数量	维度	说明
81	Bert-finetune	文本	0.3B	32	协同微调，维度极低
82	Conan-embedding-v1	文本	0.3B	1,024	通用文本嵌入
83	gte-Qwen2-7B-instruct	文本	7B	3,584	大模型文本嵌入
84	hunyuan_mm_7B_finetune	图像	7B	4,096/323	协同微调多模态
85	QQMM-embed-v1	图像	8B	3,584	图像嵌入
86	UniME-LLaVA-OneVision-7B	图像	8B	3,584	统一多模态嵌入

覆盖率特点：并非所有广告都有全部 6 个嵌入，缺失处理是重要工程问题。

3. 评估指标¶

3.1 初赛（仅点击）¶

\[\text{Score}_{\text{prelim}} = 0.31 \cdot \text{HitRate@10} + 0.69 \cdot \text{NDCG@10}\]

单一正样本（下一个点击广告）
HitRate@10：正确项是否在 top-10
NDCG@10：考虑排序位置的折损增益

3.2 决赛（点击 + 转化加权）¶

\[w(i) = \begin{cases} 0 & \text{仅曝光} \\ 1 & \text{点击} \\ \alpha=2.5 & \text{转化} \end{cases}\]

加权 NDCG@10 和加权 HitRate@10，转化事件权重是点击的 2.5 倍。

3.3 对本届的启示¶

NDCG@10 权重 (0.69) 远大于 HitRate@10 (0.31)，排序质量比召回更重要
转化加权意味着模型需要区分点击和转化的行为意图
\(K=10\) 而非 \(K=100\)，说明精排能力是核心竞争力

4. 冠军方案关键技术¶

4.1 第一名：Dense Qwen Backbone¶

技术	细节
Backbone	Dense Qwen（非 MoE）
行为条件化	Per-position action-conditioning：Gated Fusion + FiLM + Attention Bias
时间特征	绝对时间戳 + 相对间隔 + 会话结构 + 多频 Fourier 特征
语义 ID	RQ-KMeans 量化多模态嵌入 → 离散 Semantic ID
训练正则化	Random-\(k\) 策略
优化器	Muon + AdamW 混合优化
损失	静态形状 GPU 友好型 InfoNCE，大规模负采样

4.2 第二名：Encoder-Decoder + GNN¶

技术	细节
编码器	多个 Gated MLP + 图神经网络邻域聚合
解码器	SASRec 风格 Transformer (d=2048, L=8, H=8)
语义 ID	SVD-based RQ-KMeans
训练策略	两阶段：曝光预训练 → 点击/转化微调
推理	ANN 检索 + 过滤已交互项

4.3 第三名：Scaling Laws 探索¶

技术	细节
核心发现	性能更多由规模驱动，而非模型复杂度
负采样	单 batch 38 万负样本，效果显著
缩放维度	负样本数 / 模型深度与宽度 / ID 嵌入维度
行为条件	PinRec 式 next-action-type conditioning

4.4 技术创新奖：统一生成检索+排名¶

技术	细节
架构	Decoder-only + FlashAttention + SwiGLU + RMSNorm + RoPE + MoE
语义 ID	专用 Decoder Transformer + 碰撞解决机制
额外特征	多时间窗口 item 流行度统计
训练优化	混合精度 + 分离稀疏/密集优化器 + 分组 GEMM + KV Cache

5. 对本届竞赛的核心启示¶

5.1 数据层面¶

行为类型区分是关键：所有顶级方案都显式建模了曝光/点击/转化的区别
时间特征价值极高：绝对时间 + 相对间隔 + 会话边界 + Fourier 编码是标配
多模态嵌入缺失处理：不是所有 item 都有全部 6 个模态嵌入
序列长度饱和：均值 91–97 / 最大 100，需要高效的长序列建模

5.2 模型层面¶

生成式范式：自回归 + InfoNCE + ANN 检索是主流 pipeline
语义 ID (Semantic ID) 是多模态信息整合的核心桥梁
大规模负采样（数十万级）带来显著收益
Scaling Laws：在生成推荐中，规模（负样本数、模型容量）可能比架构创新更有效

5.3 工程层面¶

静态形状训练：GPU 友好，避免动态 batch 带来的开销
混合精度 (AMP)：训练效率的基本要求
两阶段训练：先在全量曝光数据上预训练，再在点击/转化数据上微调
推理解耦：用户嵌入与候选嵌入分离计算，ANN 检索加速