# 推荐系统学习笔记-05-尧图网站设计

原文链接https://datawhalechina.github.io/fun-rec/chapter_6_scaling/1.hstu.html感觉这一章的内容比较适合从结果出发进行展开结论是HSTU突破了传统DLRM的Scaling瓶颈。原因有四个方面的创新作为技术支撑分别是范式的转变架构的创新工程的优化和统一的特征空间。范式的转变感觉这里的突破有点强化学习的一点意味强化学习的基本现实是环境给出一个状态智能体(agent)根据得到的状态做出决策选择一个动作然后环境根据状态给一个奖励最后给出下一时间步的状态。这样就生成了一组由组成的马尔可夫决策过程。回到正题传统建模是只建模物品序列。Meta团队提出了Generative RecommenderGR范式将用户的行为纳入考虑范围将推荐过程视为两个交织的随机过程表现为交替出现的内容和行为序列统一异构特征空间解决类别型特征GR的解决思路是时间轴对齐和压缩合并。时间轴对齐是先找出变化最频繁的特征例如用户点击、点赞、收藏、转发、评论的物品序列作为“主时间线”。对其他的特征进行压缩具体是对于每个连续的相同值段只保留第一次出现的记录。最后是将压缩后的序列合并到主时间线中。对于数值型特征作者先抬高视线提出假设如果序列模型足够强大能够建模足够长的历史那么数值型特征就可以自动学习类别型特征的聚合统计。从DLRM的特征空间表示 { sparse features } U{ dense features}到GR的 Seq(sparse features)。当n时GR的特征空间可以近似覆盖DLRM的特征空间。训练效率的飞跃统一的序列表示使得行为序列的预测是在一次前向传播中完成这样可以用同样的计算预算训练复杂度更高的模型。HSTU架构使用Pointwise Aggregation替代Softmax Attention与DIN算法类似的做法没有使用注意力机制中的softmax使结果的群众和为1。更多的考量是为了知道哪些行为更重要重要到哪种程度。所以使用到pointwise aggregation替换了softmax。相对位置编码重新设计这一点更多的是考量到与语言序列的区别还有考虑现实当中的时间因素。因此HSTU引入了一个增强的相对位置bias机制记为。它不仅考虑位置关系还考虑实际时间间隔。简化前馈网络和门控机制提出前馈网络FFN占据了Transformer的大部分参数和计算量。为了减少参数量和计算量使用到element-wise门控机制替代FFN然后使用到单层线性投影加激活替代门控函数。好处是减少参数量和计算量降低激活值内存更少的中间层意味着反向传播需要保存的激活值更少。训练与推理的工程优化Stochastic Length观察到用户行为在不同时间尺度上展现出重复的模式提出Stochastic Length随机长度的训练。核心思想很简单对于长度为的用户序列不总是使用完整的序列进行训练而是以一定概率随机截取一个较短的子序列。M-FALCONHSTU团队提出M-FALCON通过三层递进的优化解决了推理延迟的问题。三层优化分别是第一层优化Batched Inference 第二层优化Microbatching第三层优化KV Caching。此处的技术实现感觉很精妙意思是本人没有看懂推荐系统的Sacling Law此处讲到Meta团队设计了scaling实验在计算量方面做对比发现指标呈现了很好的幂律关系。并给出了你和结果召回任务HR100 0.15 0.0195排序任务: NE 0.549 - 0.0053这意味着计算量每增加10倍一个数量级Hit Rate100约提升4.5个百分点Normalized Entropy下降约1.2个百分点。这个scaling关系在三个数量级的计算量范围内都稳定成立。它首次证明了推荐模型的scaling law推荐不再是深度学习的”例外”它也遵循compute-optimal的scaling规律。感觉这章内容很重要比之前那章更有条理和逻辑性。有时间的话大家去看一下原文逻辑很缜密覆盖了好几个方面的内容很有意思。

# 推荐系统学习笔记-05

相关新闻

Win11下RTX4060显卡如何一步到位配置Pytorch1.12.0+CUDA11.6（附版本兼容性对照表）

多线程下对锁的访问是如何做到互斥的，普通的变量是无法避免两个线程同时访问的，那么锁是如何避免两个线程同时访问的

Llama-3.2V-11B-cot新手指南：告别报错！绿色提示+黄色警告交互设计

从几何直观到代码实现：Trapezoidal Rule（梯形法则）的积分求解之旅

ChatGPT公关声明撰写实战手册（含FDA/SEC双合规校验清单）：2024全球头部AI公司真实声明对比分析

熊猫侠 AI 导航，一个无广告、高精选的 AI 工具集合站

为什么你的ChatGPT播客总被划走？揭秘算法偏爱的3秒钩子结构，附可即插即用的12套开场话术库

别再只重启SSH了！深入理解.Xauthority文件，根治Linux图形转发认证问题

收藏！小白程序员必看：AI时代如何逆袭，大模型学习指南

内容创作团队整合大模型API为不同环节匹配最佳模型的实践

迪文T5L1芯片串口屏开发笔记：DMG80480C070_03WTC的RAM与Flash空间到底怎么分？

树莓派Pico的SPI和I2C到底怎么选？一个实际项目带你搞懂区别与选型

让 AI 做代码 Review（CR）：测试如何提前在代码提交阶段发现 Bug？

问题不是要不要审，而是审查放在哪条路径

水纹真实度提升300%的关键技巧，深度拆解--style raw、--chaos 45与自定义tile texture协同机制

别再手动点关了！用PowerShell永久关闭Windows Defender的保姆级教程（含Server 2016/2019）

别再只换芯片了！BP2832A替换CL1502，你的电感参数算对了吗？

全平台智能资源下载工具：res-downloader 完整使用教程