论文《AutoQual:基于LLM Agent的评论质量可解释特征自动发现方法》

发布时间:2026/6/29 20:00:21

论文《AutoQual:基于LLM Agent的评论质量可解释特征自动发现方法》 一、基本信息论文《AutoQual: An LLM Agent for Automated Discovery of Interpretable Features for Review Quality Assessment》EMNLP 25《AutoQual基于LLM Agent的评价质量可解释特征自动发现方法》开源代码https://github.com/tsinghua-fib-lab/AutoQual二、研究问题与动机研究问题在线评价质量评估Review Quality Assessment这一任务即按照评价的内在质量对其进行排序这对电商平台和信息服务的用户体验与商业转化至关重要。其中该任务面临两个核心挑战领域依赖性不同领域(餐饮评价 VS商品评价)对“高质量”的定义截然不同为大量领域手工设计特征不可扩展。动态性用户期望和内容模式随时间演变特征需要持续适应。现有方法的不足传统手工特征方法僵化不能适配新场景或者新业务深度学习方法虽避免了手工设计但往往是不可解释的黑盒预训练语言模型PLM优化的是语义理解而非文本质量本身容易陷入捷径学习Shortcut Learning。由此核心研究方向:需要一个能自主发现可解释、高效特征的框架。三、方法:AutoQual框架AutoQual是一个基于LLM的自主Agent框架模拟人类研究员的工作流程通过迭代循环自动发现可解释特征。框架由三个核心阶段和一个双层记忆架构组成。3.1 生成初始假设Hypothesis Generation该阶段通过两种互补策略建立初始候选特征池S_cand。多视角构思Multi-Perspective ldeationAgent 引导LLM实例化多个不同的专家人设如挑剔的用户、产品经理等每个人设从其独特的评估标准出发提出一组特征假设确保初始假设的多样性。对比分析Contrastive Analysis从数据集中采样高质量和低质量评价数据构建三个集合仅高质量、仅低质量、混合分别通过三种提示词让LLM识别高质量评价的共同优势、低质量评价的共同缺陷、以及两者之间的关键区分因素从而生成三组基于数据的特征假设最后 Agent 对两种策略的原始输出进行去重和格式化合并为候选特征池。具体举例 “专家”对提出特征{对比上下文、结构简洁性、长期使用表现、帮助意图、情感表达、客观性等} 数据集抽象特征{评论长度、细节具体性、场合、颜色、材质} 最后去重合并。3.2 自主工具实现 (Autonomous Tool Implementation)对候选池中的每个假设特征AutoQual需要开发一个可靠的量化机制。Agent自主生成标注工具工具形式有两种程序化函数(如用于句法分析的Python脚本)精细化设计 LLM 标注提示词用于需要语义理解的复杂特征具体流程是LLM首先判断特征适合用code还是prompt来度量然后大模型生成对应的方案工具。为了保证工具可靠性Agent采用提出一验证一精炼propose-validate-refine的迭代循环新工具立即在小样本上验证如果效果不佳则修改升级逻辑直到LLM认为性能达标或达到最大迭代次数。工具确定后用于标注整个数据集生成每条评价的特征值。标注整个数据集用定稿的提示词(通过qwen-plus-latest模型)对数据集中每一条评论打分。 比如: 评论A:这条裙子面料是95%聚酯纤维5%氨纶裙长82cm腰围偏小约2cm洗了三次没变形细节具体性得分9 评论B:裙子还行挺好看的喜欢细节具体性得分2 如果候选池中还有另一个特征评论长度”Agent判断它适合用CODE类型就会生成一个Python函数比如def review_length(text):return len(text.split())直接计算词数。 这样评论A 可能得到28评论B得到6。 最终假设候选池有30个特征数据集有2000条评论标注完成后就得到一张2000x30的特征值矩阵每一行是一条评论每一列是一个特征的数值。后续的反思性束搜索就是在这30列中挑选最优的k10列组合使其与目标质量分数的联合互信息最大。3.3 反思性特征搜索(Reflective Feature Search)在获得候选特征的标注值后AutoQual 执行反思性搜索来寻找最优特征集S*。搜索结构为束搜索beam search束宽为m在探索和计算成本之间取得平衡。搜索初始化时选择与目标得分互信息I(Y;f-)最高的m个特征作为初始束。束扩展时对每个束中的当前特征集S_current选择使条件互信息I(Y;f_new|F_(S_current})最大的新特征加入确保新特征提供已有集合未覆盖的最大新信息。扩展持续直到每个束包含k个特征最终选取联合互信息最高的束作为结果。1.互信息使用的是scikit-learn提供的KNN估计器来计算互信息因为特征值和目标分数都是连续变量无法像离散变量那样直接数格子需要用非参数方法来估计不设置前提假设条件例如正态分布等。 2.为什么选择beam search方法①避免特征组合爆炸②避免贪心算法选错就无法回头③beam search在两者之间平衡且天然兼容反思过程。关键创新在于任务内反思与再假设Intra-Task Reflection选出k个特征后Agent 观察当前特征集及其互信息表现反思特征有效性的一般原则据此生成新假设例如发现“具体性”相关特征有效就进一步假设“是否包含统计证据”或“使用了生动案例”等更细粒度的特征将新假设加入候选池后重新运行束搜索。此循环重复预定次数。自我进化不满足于当前结果从全局出发再重新审查消融实验表明 相关斯皮尔曼系数有提升。3.4 双层记忆架构(Dual-Level Memory)任务内记忆Intra-Task Memory/Working Memory在单次发现任务中运行维护反思搜索的状态包括已测试特征及其互信息分数基于此生成中间洞察让Agent评估过去决策质量并动态调整策略。保留中间数据学习中间决策过程。跨任务记忆Cross-Task Memory/Long-Term Memory任务完成后Agent 将问题描述、最终特征集及互信息综合为摘要存入持久知识库。面对新任务时Agent 查询该知识库获取相关经验作为初始假设生成的额外信息来源实现跨任务知识迁移并可大幅降低计算开销。四、数据细节给定文本数据集D{(x_i,y-))其中x_i为评价文本yi为质量得分(如点击率、有用性投票)目标是找到k个可解释特征函数S*{f_1…f_k)每个函数将文本映射为特征值使特征集输出值与目标得分的互信息最大化:S*argmax_(ISlk}1(Y;F_S)。每个特征函数天然可解释其定义可用自然语言表达。五、实验设置主架构模型Agent核心组件使用 DeepSeek-V3.2-Exp(思考模式)特征标注使用 qwen-plus-latest (成本效益考量)温度设为0确保可复现。互信息用scikit-learn的KNN估计器计算束宽m5最终特征数k10所有结果为5次独立运行的平均。数据集公开Amazon评价数据集(4个品类各2000条以有用性投票为质量分数)美团私有数据集(到店餐饮领域20000条评价以CTR为质量分数)。还使用OUM说服力数据集、ASAP 作文评分数据集、Jigsaw毒性检测数据集进行泛化性验证。评估指标回归任务使用Spearman 相关系数r_s和MAE(归一化到[0,1])分类任务使用F1-Score 和AUROC。基线方法分为两组一-通用文本建模方法BoW线性回归、固定PLM线性回归、微调 PLM、零样本和20-shotLLM 直接评分和评价有用性专用方法TNN 的1D-CNN、SEHP 的 Stacking集成、BHeIP-CoRT 的BERT评分文本一致性。为公平比较AutoQual 和多个基线统一使用简单线性回归作为预测器。六、实验结果RQ1特征发现性能在Table1中AutoQual 仅用发现的稀疏特征10个加简单线性回归就展现出强预测力在部分数据集上甚至超过微调 PLM 的高维语义特征。AutoQualPLM特征与PLM嵌入融合在所有数据集上的r_s均达到最优显著优于单独使用微调 PLM说明发现的高阶质量特征与PLM的细粒度语义信息互补。零样本和 few-shot LLM 基线表现很差证明AutoQual 的效果来自其结构化Agent 设计而非LLM本身的能力。RQ2消融实验Table 2展示了各组件的贡献。去除多视角构思导致平均r_s下降0.0335去除对比分析下降更大(0.0537)说明即使后续有反思机制也无法弥补初始假设多样性不足的问题。去除任务内记忆即禁用反思r_s平均下降0.0170但若去除任务内记忆同时引入从其他4个领域积累的跨任务记忆性能与完整 AutoQual 相当证明经验可跨任务迁移且该设置可将Agent 的LLM token消耗降低44.95%、标注LLM的token消耗降低29.79%。RQ3案例分析以“服装、鞋靴与珠宝“领域为例AutoQual 发现的Top10特征包括评价长度、句子结构简洁性、细节具体性(如面料类型、鞋跟高度)、帮助意图、对比上下文、真实场景相关性、长期使用表现、评价者专业性、情感表达、客观性聚焦。这些特征高度领域专属PLM的隐式嵌入无法显式捕获且可直接用于模型诊断和为用户提供写评价指导。RQ4泛化性验证在文本说服力评估OUM数据集、自动作文评分ASAP数据集上AutoQual发现的特征达到与微调PLM和手工特征工程相当的性能。在Jigsaw 毒性检测任务中AutoQualPLM 的F1-Score 0.8364和AUROC0.9203均显著超过微调PLM0.8224/0.9078发现的特征如非人化隐喻和煽动性指令提供了互补信号。进一步总结了AutoQual 的通用适用条件任务涉及非结构化数据文本/图像/音频、目标概念抽象多维如“质量”、“风险”、决策过程要求可解释性。七、工业部署AutoQual 已部署于美团平台十亿级用户规模的评价排序系统上在商家详情页使用CTR构建评价质量得分AutoQual挖掘出5个核心特征信息量、提供可操作建议、口语化表达、包含真实案例、语言可信且引人入胜。此外手动补充两个特征非推广文案、非AI生成。在20250118~20250207日在线A/B实验平均评价浏览时长1.42%、人均浏览评价数0.79%、评价阅读者转化率0.27%。八、不足与未来规划不足在语义任务如立场检测、情感分析上的适用性还需进一步探索。领域覆盖可以扩展到多模态数据图像、音频利用多模态基础模型作为骨干暂未涉及。当前工业部署受系统架构限制仅集成了高层通用特征。未来可为不同业务场景餐饮VS酒店定制领域专属特征集以进一步提升排序表现。九、核心贡献总结论文的核心贡献可以概括为四点首次提出用LLM Agent自动发现可解释质量特征的问题和框架(AutoQual)设计了融合反思、工具实现和双层记忆的完整Agent架构来高效导航特征空间在十亿级用户平台上验证了实际工业价值弥合了学术研究与工业实践之间的鸿沟框架本身是通用的一一可将专家标注中蕴含的隐性知识转化为显式、可计算、可解释的特征适用于评价质量之外的广泛下游任务。

相关新闻