跳转至

OneTrans

统一 Tokenizer + 单 Transformer

概述

OneTrans 提出在单个 Transformer 架构内同时处理用户行为序列和非序列多域特征。核心创新是统一 Tokenization 方案和混合因果注意力(Mixed Causal Attention),让序列 token 和非序列 token 使用不同的参数矩阵。

→ 完整论文笔记见 OneTrans 论文

模型架构

  • AutoSplitNSTokenizer:自动将非序列特征分区为 NS token
  • UnifiedSequentialTokenizer:将行为事件与分组分隔符合并为统一序列
  • RMSNorm:使用 RMSNorm 替代 LayerNorm
  • MixedCausalAttention:token 类型级别的权重矩阵(NS token 有独立的 Q/K/V 投影)
  • MixedFFN:token 类型级别的 up/down 投影

关键特性:行为组之间插入分隔符,因果掩码基于位置的 Q/K 拆分。

默认配置

参数
embedding_dim 128
num_layers 4
num_heads 4
segment_count 8
recent_seq_len 0
num_queries 0
epochs 10
batch_size 64
learning_rate 1e-3
pairwise_weight 0.0

快速运行

uv run taac-train --experiment config/gen/onetrans
uv run taac-evaluate single --experiment config/gen/onetrans

输出目录

outputs/gen/onetrans/

来源

论文:Unified Feature Interaction and Sequence Modeling with One Transformer in Industrial Recommender(NTU + ByteDance,WWW 2026 accepted)

评论