数据集分析与可视化¶
本分区提供 TAAC 2026 数据集的自动化探索性分析,以及从上届竞赛论文中提炼的数据层面经验。
所有统计数据和图表均由 taac-dataset-eda CLI 工具自动生成,可随时重跑刷新:
uv run taac-dataset-eda # 默认 sample 数据集
uv run taac-dataset-eda --dataset path/to/data # 自定义数据路径
uv run taac-dataset-eda --json-path figures/eda/stats.json # 同时输出 JSON
文档索引¶
| 文档 | 说明 |
|---|---|
| 数据集 EDA 报告 | 本届数据集的自动化分析报告(含图表) |
| 评估指标分析 | 评估协议解读与指标优化方向 |
| TAAC 2025 论文洞察 | TAAC 2025 论文关键经验提炼 |
编程接口¶
分析功能也可作为 Python API 直接调用:
from taac2026.infrastructure.io.datasets import iter_dataset_rows
from taac2026.reporting.dataset_eda import (
classify_columns,
compute_column_stats,
compute_label_distribution,
compute_sequence_lengths,
echarts_label_distribution,
)
rows = list(iter_dataset_rows("TAAC2026/data_sample_1000"))
groups = classify_columns(list(rows[0].keys()))
label_dist = compute_label_distribution(iter(rows))
# 生成 ECharts JSON 配置(可直接写入 .echarts.json 文件)
import json
chart_opt = echarts_label_distribution(label_dist)
print(json.dumps(chart_opt, ensure_ascii=False, indent=2))
快速背景¶
TAAC(腾讯广告算法挑战赛)是针对工业广告场景的全模态生成推荐竞赛。核心任务是:给定用户的全模态广告互动历史序列,预测用户下一个最可能交互的广告。
与经典推荐的关键区别:
- 生成式范式:自回归序列预测,而非判别式重排序
- 全模态输入:协作 ID + 文本嵌入 + 视觉嵌入
- 异构行为:曝光 / 点击 / 转化,需区分行为类型
- 工业级规模:百万到千万级用户序列