ragas官方文档中文版(四)

发布时间:2026/6/9 19:02:07

ragas官方文档中文版(四) 数据集数据集与实验结果在评估人工智能系统时我们通常处理两种主要类型的数据1、评估数据集这些存储在 datasets 目录下。2、评估结果这些存储在 experiments 目录下。评估数据集评估数据集包含1、输入 系统将处理的一组输入。2、预期输出可选 系统对给定输入的预期输出或响应。3、元数据可选 可与数据集一起存储的附加信息。例如在检索增强生成RAG系统中它可能包含查询系统输入、评分说明用于评分系统输出以及查询复杂度等元数据。元数据对于对数据集进行切片和切块特别有用使您能够跨不同方面分析结果。例如您可能希望查看系统在复杂查询与简单查询上的表现或者它如何处理不同语言。实验结果实验结果包括1、 数据集中的所有属性。2、 被评估系统的响应。3、 指标结果。4、 可选元数据例如指向给定输入的系统跟踪的 URI。例如在 RAG 系统中结果可能包括查询、评分说明、响应、准确率分数指标、系统跟踪链接等。在 Ragas 中使用数据集Ragas 提供了一个 Dataset 类来处理评估数据集。以下是使用方法创建数据集fromragasimportDataset# Create a new datasetdatasetDataset(namemy_evaluation,backendlocal/csv,root_dir./data)# Add a sample to the datasetdataset.append({id:sample_1,query:What is the capital of France?,expected_answer:Paris,metadata:{complexity:simple,language:en}})加载现有数据集# Load an existing datasetdatasetDataset.load(namemy_evaluation,backendlocal/csv,root_dir./data)数据集结构Ragas 中的数据集具有灵活性可以包含评估所需的任何字段。常见字段包括id每个样本的唯一标识符query或input人工智能系统的输入expected_output或ground_truth预期响应如有metadata关于样本的附加信息数据集创建最佳实践1、代表性样本确保数据集代表人工智能系统将遇到的真实场景。2、均衡分布包含不同难度级别、主题和边缘情况的样本。3、质量优于数量拥有少量高质量、精心策划的样本比大量低质量样本更好。4、丰富元数据包含相关元数据以便跨不同维度分析性能。5、版本控制跟踪数据集随时间的变化确保可重现性。数据集存储与管理本地存储对于本地开发和小型数据集您可以使用 CSV 文件datasetDataset(namemy_eval,backendlocal/csv,root_dir./datasets)云存储对于较大的数据集或团队协作考虑使用云后端# Google Drive (experimental)datasetDataset(namemy_eval,backendgdrive,root_dirfolder_id)# Other backends can be added as needed数据集版本控制跟踪数据集版本以实现可重现的实验# Include version in dataset namedatasetDataset(namemy_eval_v1.2,backendlocal/csv,root_dir./datasets)与评估工作流集成数据集与 Ragas 评估工作流无缝集成fromragasimportexperiment,Dataset# Load your datasetdatasetDataset.load(namemy_evaluation,backendlocal/csv,root_dir./data)# Define your experimentexperiment()asyncdefmy_experiment(row):# Process the input through your AI systemresponseawaitmy_ai_system(row[query])# Return results for metric evaluationreturn{**row,# Include original dataresponse:response,experiment_name:baseline_v1}# Run evaluation on the datasetresultsawaitmy_experiment.arun(dataset)此集成使您能够在测试数据数据集和评估结果实验之间保持清晰的分离从而更轻松地跟踪进度并比较不同方法。

相关新闻