已广泛落地客服、智能助理等场景,用户交互中的信息披露行为暗藏隐私风险)
大语言模型驱动的对话式人工智能CAIs已广泛落地客服、智能助理等场景用户交互中的信息披露行为暗藏隐私风险。现有研究多聚焦模型训练数据记忆、越狱攻击等被动泄露问题而针对恶意设计的CAI主动诱导用户披露个人信息的攻击性场景相关研究仍处于空白阶段。伦敦国王学院等机构的研究团队通过实证实验验证了这类新型威胁的可行性与危害性相关研究成果发表于2025年第34届USENIX安全研讨会。研究团队提出全新威胁模型攻击者无需修改模型参数或重新训练仅通过构造特定系统提示词即可将普通对话LLM转化为信息收集型代理。这种攻击基于预训练提示词的应用生态门槛低、可规模化复制具备极强的现实攻击价值。为分析诱导策略效果研究设计四类CAI交互条件良性CAI采用默认提示词直接索取型持续明确询问个人信息效用诱导型先提供有效解答再索取信息互惠诱导型在效用基础上叠加共情、情绪支持与故事化表达通过建立信任降低用户警惕。研究招募502名参与者开展随机对照实验每名参与者仅与一种CAI交互通过自动信息抽取工具分析对话内容并结合问卷评估用户主观感知。实验结果显示恶意CAI诱导的个人信息披露量显著高于良性CAI且不同策略效果差异显著直接索取与效用诱导虽有效果但易引发用户警觉互惠诱导策略既能高效诱导信息披露又未显著提升用户的隐私风险感知隐蔽性极强成为最具威胁的攻击方式也印证了共情、互惠等社会性互动机制会放大信息收集攻击的效果。