# 推荐系统学习笔记-05

发布时间:2026/5/27 21:17:28

# 推荐系统学习笔记-05 原文链接https://datawhalechina.github.io/fun-rec/chapter_6_scaling/1.hstu.html感觉这一章的内容比较适合从结果出发进行展开结论是HSTU突破了传统DLRM的Scaling瓶颈。原因有四个方面的创新作为技术支撑分别是范式的转变架构的创新工程的优化和统一的特征空间。范式的转变感觉这里的突破有点强化学习的一点意味强化学习的基本现实是 环境给出一个状态智能体(agent)根据得到的状态做出决策选择一个动作然后环境根据状态给一个奖励最后给出下一时间步的状态。这样就生成了一组由组成的马尔可夫决策过程。回到正题传统建模是只建模物品序列。Meta团队提出了Generative RecommenderGR范式将用户的行为纳入考虑范围将推荐过程视为两个交织的随机过程表现为交替出现的内容和行为序列统一异构特征空间解决类别型特征GR的解决思路是时间轴对齐和压缩合并。时间轴对齐 是先找出变化最频繁的特征例如用户点击、点赞、收藏、转发、评论的物品序列作为“主时间线”。对其他的特征进行压缩具体是对于每个连续的相同值段只保留第一次出现的记录。最后是将压缩后的序列合并到主时间线中。对于数值型特征作者先抬高视线提出假设 如果序列模型足够强大能够建模足够长的历史那么数值型特征就可以自动学习类别型特征的聚合统计。从DLRM的特征空间表示 { sparse features } U{ dense features}到GR的 Seq(sparse features)。当n时GR的特征空间可以近似覆盖DLRM的特征空间。训练效率的飞跃统一的序列表示使得 行为序列的预测是在一次前向传播中完成这样可以用同样的计算预算训练复杂度更高的模型。HSTU架构使用Pointwise Aggregation替代Softmax Attention与DIN算法类似的做法没有使用注意力机制中的softmax使结果的群众和为1。更多的考量是为了知道哪些行为更重要重要到哪种程度。所以使用到pointwise aggregation替换了softmax。相对位置编码重新设计这一点更多的是考量到与语言序列的区别还有考虑现实当中的时间因素。因此HSTU引入了一个增强的相对位置bias机制记为。它不仅考虑位置关系还考虑实际时间间隔。简化前馈网络和门控机制提出前馈网络FFN占据了Transformer的大部分参数和计算量。为了减少参数量和计算量使用到element-wise门控机制替代FFN然后使用到单层线性投影加激活替代门控函数。好处是减少参数量和计算量降低激活值内存更少的中间层意味着反向传播需要保存的激活值更少。训练与推理的工程优化Stochastic Length观察到用户行为在不同时间尺度上展现出重复的模式提出Stochastic Length随机长度的训练。核心思想很简单对于长度为的用户序列不总是使用完整的序列进行训练而是以一定概率随机截取一个较短的子序列。M-FALCONHSTU团队提出M-FALCON通过三层递进的优化解决了推理延迟的问题。三层优化分别是第一层优化Batched Inference 第二层优化Microbatching第三层优化KV Caching。此处的技术实现感觉很精妙意思是本人没有看懂推荐系统的Sacling Law此处讲到Meta团队设计了scaling实验在计算量方面做对比发现指标呈现了很好的幂律关系。并给出了你和结果召回任务HR100 0.15 0.0195排序任务: NE 0.549 - 0.0053这意味着计算量每增加10倍一个数量级Hit Rate100约提升4.5个百分点Normalized Entropy下降约1.2个百分点。这个scaling关系在三个数量级的计算量范围内都稳定成立。它首次证明了推荐模型的scaling law推荐不再是深度学习的”例外”它也遵循compute-optimal的scaling规律。感觉这章内容很重要比之前那章更有条理和逻辑性。有时间的话大家去看一下原文逻辑很缜密覆盖了好几个方面的内容很有意思。

相关新闻