模型RAG评测

发布时间:2026/5/18 16:36:21

模型RAG评测 模型理解力评测RAG 之所以广受欢迎是因为它基于检索到的真实资料能够减少幻觉。然而 RAG 并不一定意味着幻觉会被完全消除。现实中出现事实性幻觉的常见场景上下文提供了明确事实但模型未读取或匹配凭常识胡乱生成。模型“看”到的背景信息有限但它仍然自信地“虚构”细节回答问题。问马云在阿里巴巴创办初期遇到了哪些具体困难RAG:马云著名企业家阿里巴巴创始人。答A幻觉马云在阿里巴巴创立初期曾因办公楼失火导致数据全部丢失团队一度陷入危机。多个相似案例混淆模型输出了正确格式但内容错误的事实怎么你确定是否有这些问题事实性的评估评估器主要用于以下场景开发和测试阶段在集成测试中验证 RAG 系统的质量批量质量检查对一批历史对话进行离线评估系统监控定期抽样评估生产环境中的对话质量比如每100次对话评估1次模型验证当更换 AI 模型或调整 RAG 配置时用于验证新配置的效果SpringBootTestpublicclassFactCheckingTest{TestvoidtestFactChecking(AutowiredOllamaChatModelchatModel){// 创建 FactCheckingEvaluatorvarfactCheckingEvaluatornewFactCheckingEvaluator(ChatClient.builder(chatModel));// 示例上下文和声明Stringcontext地球是仅次于太阳的第三颗行星也是已知唯一孕育生命的天文物体。;Stringclaim地球是距离太阳第三大行星。;// 创建 EvaluationRequestEvaluationRequestevaluationRequestnewEvaluationRequest(context,Collections.emptyList(),claim);// 执行评估EvaluationResponseevaluationResponsefactCheckingEvaluator.evaluate(evaluationRequest);Assertions.assertTrue(evaluationResponse.isPass(),The claim should not be supported by the context);}}解决高风险领域医疗、法律、金融等必须进行事实性幻觉定期评估限定上下文范围通过系统提示词让模型明确只能在指定背景或文档内容中作答禁止引用未检索到的信息。回答不确定机制调整分数、定义精确RAG相似性搜索能力RAG幻觉评测当我们发现大模型回答的内容并没有按照检索的documents进行有效回答 就可以通过这种方式进行测试评估 AI 生成的响应的事实准确性。该评估器通过验证给定的语句responseContent是否在逻辑上得到提供的上下文文档的支持帮助检测并减少 AI 输出中的错觉。“responseContent”和“document”将提交给人工智能模型进行评估。目前已有更小、更高效的人工智能模型专门用于此目的例如 Bespoke 的 Minicheck与 GPT-4 等旗舰模型相比它有助于降低执行这些检查的成本。Minicheck 也可通过 Ollama 使用。什么时候需要用到验证已构建的RAG系统的响应质量在集成测试中自动化质量检查调试和优化RAG配置时评估效果SpringBootTestpublicclassRagEvalTest{TestpublicvoidtestRag(AutowiredVectorStorevectorStore,AutowiredDashScopeChatModeldashScopeChatModel){ListDocumentdocumentsList.of(newDocument( 1. 预订航班 - 通过我们的网站或移动应用程序预订。 - 预订时需要全额付款。 - 确保个人信息姓名、ID 等的准确性因为更正可能会产生 25 的费用。 ),newDocument( 2. 更改预订 - 允许在航班起飞前 24 小时更改。 - 通过在线更改或联系我们的支持人员。 - 改签费经济舱 50豪华经济舱 30商务舱免费。 ),newDocument( 3. 取消预订 - 最晚在航班起飞前 48 小时取消。 - 取消费用经济舱 75 美元豪华经济舱50美元商务舱25美元。 - 退款将在 7 个工作日内处理。 ));vectorStore.add(documents);RetrievalAugmentationAdvisorretrievalAugmentationAdvisorRetrievalAugmentationAdvisor.builder().documentRetriever(VectorStoreDocumentRetriever.builder().vectorStore(vectorStore).build()).build();Stringquery退票费用;ChatResponsechatResponseChatClient.builder(dashScopeChatModel).build().prompt(query).advisors(retrievalAugmentationAdvisor).call().chatResponse();EvaluationRequestevaluationRequestnewEvaluationRequest(// The original user questionquery,// The retrieved context from the RAG flowchatResponse.getMetadata().get(RetrievalAugmentationAdvisor.DOCUMENT_CONTEXT),// The AI models responsechatResponse.getResult().getOutput().getText());RelevancyEvaluatorevaluatornewRelevancyEvaluator(ChatClient.builder(dashScopeChatModel));EvaluationResponseevaluationResponseevaluator.evaluate(evaluationRequest);System.out.println(evaluationResponse);System.out.println(chatResponse.getResult().getOutput().getText());}}query 我叫什么名字;

相关新闻