(边学边写)OneSearch V1:电商生成式搜索模型--快手

发布时间:2026/6/5 15:17:44

(边学边写)OneSearch V1:电商生成式搜索模型--快手 论文标题OneSearch: A Preliminary Exploration of the Unified End-to-End Generative Framework for E-commerce Search论文地址https://arxiv.org/abs/2509.03236① 文章概述文章主要面向电商搜索领域传统搜索类似推荐也是采用多阶段级联架构(MCA)。但由于MCA的计算碎片化问题和目标冲突问题于是引入生成式检索范式通过输入用户查询直接返回结果的端到端系统。本文主要创新(1)提出关键词增强的分词量化技术(2)多视角用户行为序列注入策略(3)设计了一个具有偏好意识的奖励系统推荐、搜索/广告、查询建议、底部栏四种相似任务在输入输出上的不同之处② 模型结构OneSearch的整体架构分为四个部分a\b\c关键词增强的分层量化编码d多视角行为序列注入e统一的编码器-解码器架构f偏好感知奖励系统。下面分别对这四部分进行解读(1) 分层量化编码结合有效信息分词(FSQ、OPQ)以及常见的量化方法(RQ-VAE、VQ-VAE、RQ-Kmeans)。先利用领域知识提取查询和项目的核心属性再使用RQ-Kmeans进行分层特征编码然后使用OPQ对每个项目独特的特征进行量化。a对齐用户行为与语义在电商搜索场景中纯语义模型Qwen等文本模型不反映真实业务特征纯协同向量ItemCF等不具备语义泛化能力。这一步设计四类对比学习任务对齐行为和语义信号。收集高质量数据利用经典的ItemCF和Swing算法挖掘高质量的Q2Q对、I2I对、Q2I对收集物品的文本特征和业务特征(点击、加购...)使用蒸馏版BGE生成初始向量并过滤掉余弦相似度低于0.6的数据。四大训练任务 对比损失和拉近协同相似的 query 以及协调相似的 item(针对BGE) 对比损失确保能够捕捉到真实业务的 query-item 匹配关系引入Margin Loss学习不同行为层级曝光点击购买的协同信号引入LLM对相似度处于临界的样本根据上下文打分让BGE去拟合该打分b核心关键词增强使用命名实体识别NER技术确定了 18 个结构化属性为每个属性编制关键词列表按照页面浏览量从高到低排序选择高频词作为核心属性。然后用Qwen-VL模型提取每个item的关键词用Aho-Corasick自动机多模式字符串匹配算法找到query的关键词。找到关键词后在原始Embedding中进行加权融合使用码本利用率(CUR)和独立编码率(ICR)衡量码本性能使用核心关键词后两个指标都有提高。cRQ-OPQ分层量化标记化常规SID标记器如RQ-VAE、VQ-VAE、RQ-Kmeans都侧重于对相似物品的共性进行编码可能会导致物品的独特特征丢失。相较而言RQ-Kmeans的CUR和ICR指标更高一些文章考虑电商商品语义上需要入口宽容纳更多类目和主属性出口细逐步聚焦细节的编码结构实验对比发现4096-1024-512 配比效果最好论文发现只在第三层使用balanced K-means强制每个ID下分配商品数量大致相等可以保持前两层的语义结构并确保第三层物品能够被独立编码。引入OPQ处理残差在基础的3层RQ上加入2层OPQ (256-256) 编码去处理RQ未能处理的残差可以保留商品的细微特征保证独立编码率。(2) 多视角行为序列注入从三个角度将用户行为序列引入GRs模型个性化注入首先提出一种基于用户ID构建的行为序列方案然后将近期偏好短行为序列纳入提示文本再隐性地包含长行为序列构建用户画像。a) 根据行为序列构建用户ID为了让用户ID包含语义信息构造User ID由10个Token组成SIDlong SIDshort 各5个。长期行为部分 SIDlong用户按时间顺序排列的长期点击历史计算随时间衰减的加权聚合ID下面的 j 是时间步短期行为部分 SIDshort提取用户最近点击的m个商品直接提取这些商品的SIDs计算方式同上也有对时间衰减的加权冷启动处理对于没有历史行为的新用户使用“全局热门”进行填充b) 显式短序列短期(近期)行为序列反映了用户的近期偏好长期行为序列代表用户的个人特征。短期行为序列包括用户的最新输入查询和点击的物品。将查询、项目的SID直接输入到prompt中并附上用户ID以及输入的查询让模型显式感知近期偏好变化。c) 隐式长序列对于用户长期行为序列(可能达到上千甚至更多)无论简单拼接还是塞进prompt都会消耗大量计算资源论文使用 Q-Former 将其压缩为一组隐式向量。首先查找商品对应的SID系统将用户行为分为三类点击、购买、搜索相关单元针对每一类行为系统对齐序列中所有商品向量进行求和为了将这些压缩后的行为向量与主模型LLM对齐OneSearch 引入了轻量级 transformer 结构生成一个固定大小的隐式表示这个 Q 作为Encoder的额外输入让模型感知用户的长期稳定偏好。(3) 统一编解码架构模型的输入OneSearch 将电商搜索中异构的信息全部序列化各部分用[SEP]分隔拼接成一个统一的输入序列 XU​包含五个部分用户独特ID通过行为序列构造的10个Token的ID当前查询Query原始查询文本 q 和它的语义ID SIDq显式短期行为序列用户的搜索历史查询词 Seqq 、用户最近点击的商品序列 Seqshort隐式长期行为序列通过 Q-Former 压缩生成的 Dense Vectors用户画像信息平台本身拥有的用户基础属性架构选择OneSearch实验Encoder-Decoder架构并选用 BART 作为底座模型整个推理过程就是输入所有特征让模型 M 吐出商品列表 I(4) 偏好感知奖励系统相较于推荐系统搜索系统面临着双重约束强相关性生成的item必须严格匹配query和个性化排序。对于 GR 模型不仅要实现 SID 与查询和项目的文字描述之间的语义对齐还要根据历史行为序列直接生成符合查询相关性约束和用户偏好的item。本节通过三阶段 SFT 两阶段 RL旨在让 OneSearch 同时具备语义理解能力、业务相关性约束和个性化排序能力。a) 多阶段监督微调这个阶段主要是为了如何“教会”一个基于文本预训练的模型如 BART 或 T5去理解和生成 OneSearch 特有的 Semantic IDs。语义内容对齐将查询/项目文本作为输入传递给提示并输出相应的 SID将 SID 作为输入生成原始的查询/项目文本输入查询/项目文本并输出相应的类别信息。 目的是建立 Text 和 SID 的双向映射关系。共现同步查询和项目之间的相互预测以及查询 SID 和项目 SID 之间的相同任务。在此阶段中用户特征被忽略学习Query和Item间的语义和协同关系比如让模型知道“跑鞋”和“耐克”经常一起出现 。用户个性化建模拼接所有特征 —— 用户 ID、当前 Query、Query SID、短期序列、长期序列向量输出目标Item SID教模型根据特定用户的特定历史来生成推荐结果。其中在短期行为序列Seq_short进行了滑动窗口的数据增强方法不仅用完整的序列训练一次还用滑动窗口切分出多个子序列进行训练[] - A[A] - B[A, B] - Cb) 自适应奖励系统如果说前一节 (SFT) 是教模型“怎么生成商品”那么这一节就是教模型“怎么把用户最想买的商品排在前面”。传统的强化学习只采用“点击/未点击”作为二元奖励。但电商用户的反馈是分层级的且原始数据存在严重的偏差 (Bias)。 OneRec-V1 使用的是加权 P-ScoreOneRec-V2 使用的是反馈驱动的偏好对齐而 OneSearch 采用了“自适应加权奖励信号”配合“混合排序框架”。自适应加权奖励信号作者将用户行为细分为 6 个等级并赋予不同的基础权重 λ搜索场景购买 (权重 2.0) 推荐场景同类购买 (权重 1.5)点击 (权重 1.0) 曝光未点击 (权重 0.5)同类未展示 (权重 0.2) 随机负样本 (权重 0.0)。对于正负样本的偏好差异其中加权奖励分数这里的CTR/CVR是校准过的因为一个新商品刚上架被点了一次CTR 是 100%而热门商品展示次数多CTR 可能反而低其中奖励模型训练给生成结果打分OneSearch训练了一个独立的“裁判模型”。基于SIM的三塔结构分别预测CTR、CVR、CTCVR推荐可以发散搜索必须相关。因此引入强相关约束其中相关性分数 (S_Rel​) 的权重被放大了 10 倍。这意味着无论各项预估指标多高只要商品与 Query 不相关总分就会被一票否决混合排序框架首先用训练好的 RM 对 OneSearch 生成的结果进行重排筛选出排序发生变化的样本正样本被 RM 排到前面的商品负样本反之使用 List-wise DPO 进行训练。这个公式看似复杂其实主要包含了两层含义对比排序 (Preference Optimization):是基于校准后的 CTR/CVR 算出的权重差。公式前半部分要求模型对于高权重的商品其生成概率必须显著高于低权重商品。生成约束 (NLL Loss):部分是传统的负对数似然损失。它要求模型在学习排序的同时不能忘了“怎么生成正确的 ID”防止模型为了讨好 Reward 而输出乱码.然后用纯粹的真实用户交互数据训练模型。依然使用 List-wise DPO但这次的“裁判”不再是模型而是用户的真实手指。正样本用户的强交互行为购买、点击、推荐场景同类购买负样本用户的负反馈行为曝光未点、跳过③ 实验(1) 实验配置数据集快手商场搜索平台2025年5月至8月间用户交互对。这些集合持续了91天前90天用于模型训练最后一天作为测试集评估指标HRKMPRKbaseline模型真实在线多级级联架构onlineMCA(2) 实验结果离线实验结果论文中还有其他消融实验我这里就不展示了感兴趣大家可以看一下原文

相关新闻