全球最多下载的中文开源高质量数据集更新了!OpenCSG发布Fineweb-Edu-Chinese-V2.3

发布时间:2026/7/1 3:39:40

全球最多下载的中文开源高质量数据集更新了!OpenCSG发布Fineweb-Edu-Chinese-V2.3 重磅更新OpenCSG开放传神正式发布 Fineweb-Edu-Chinese V2.3 数据集。这是一份面向中文大模型训练、NLP 任务构建与多语言研究的高质量中文教育语料数据集聚焦中文文本中的教育价值、内容质量与训练可用性为中文大模型预训练、继续预训练和数据研究提供更可靠的数据基础。V2.3 版本延续了 Chinese Fineweb Edu 系列在中文高质量语料建设上的方向从海量中文 Web 内容中筛选更适合模型学习的教育类文本而不是简单追求语料规模。对于中文大模型而言真正稀缺的并不只是“更多中文文本”而是信息密度更高、表达更清晰、结构更完整、能够支撑模型知识理解与语言能力提升的高质量数据。在数据定位上Fineweb-Edu-Chinese V2.3 继续面向中文教育语料场景强调文本的可学习性和训练价值。它更适合作为中文模型训练中的高质量数据来源可用于中文文本理解、知识问答、摘要生成、阅读理解、教育类 NLP 任务以及多语言研究中的中文语料补充。版本演进1 v1.0核心定位概念验证数据规模约 9000 万条约 300GB关键特性与改进初代 Chinese Fineweb Edu 语料BERT 打分模型MinHash 去重数据源包括 CCI2、SkyPile、Tele-AI2 v2.0核心定位规模化扩展数据规模约 1.88 亿条约 420B tokens关键特性与改进升级至 OpenCSG csg-wukong-enterprise V2 打分器扩展 Industry2、wanjuan1.0、wudao 等数据源3 v2.1核心定位预训练精选数据规模总计约 1.5T tokens关键特性与改进按分数分层组织新增 map-cc、opencsg-cc支持灵活预训练和课程学习3 v2.2核心定位SFT与对齐数据规模约 143.7 万条高质量问答关键特性与改进将高质量教育语料转化为 SFT 问答数据提供纯 QA 与上下文版本3 v2.3核心定位更高纯度的 SFT 数据数据规模23.04 万条 QA pairs关键特性与改进升级 V2.2 的源文本选择和生成逻辑强化证据对齐、质量过滤和多格式导出Chinese Fineweb Edu Dataset V2.3Fineweb-Edu-Chinese V2.3是 OpenCSG开放传神推出的高质量中文教育语料数据集面向中文大模型训练、NLP 任务构建与多语言研究场景。Fineweb-Edu-Chinese V2.3 延续了 OpenCSG 在中文高质量数据集建设上的方向从海量中文内容中筛选更具教育价值、更适合模型学习的语料让中文大模型不只是“读到更多中文”而是能够“学到更好的中文”1 v2.3 的核心价值中文教育 SFT 数据长期面临高质量公开数据稀缺、教育网页内容与可训练问答格式之间存在断层、合成数据容易重复空泛且难以验证等问题。Fineweb-Edu-Chinese V2.3 的目标是提供一批更适合直接进入监督微调流程的中文教育问答数据。v2.3 重点提升三类能力更稳定的中文教育回答能力数据覆盖概念解释、事实问答、结构化总结、步骤推理和面向学习者的清晰表达。更高纯度的 SFT 训练输入筛选目标从“是否像教育内容”升级为“是否适合生成可回答、可追溯、可训练的 SFT 样本”。更低接入成本的训练格式同一批 QA pairs 同步提供 Alpaca、Messages、Messages-no-system 三种格式方便直接接入常见训练框架。方便社区用户和产业团队直接接入常见训练框架用于中文教育助手、知识服务、企业培训、垂直问答和文本生成模型建设。2质量升级规模更克制筛选更严格V2.2 将Fineweb-Edu-Chinese 系列从预训练语料推进到 SFT 问答数据为社区提供了大规模中文教育问答样本V2.3 则在此基础上进一步收紧质量门槛更强调源文本选择、生成稳定性和训练可用性。V2.3 的规模小于 V2.2并不是因为数据能力下降而是因为筛选标准更严格系统不再只保留“看起来具有教育属性”的文本而是进一步判断候选文本是否能够支撑稳定、清晰、有依据的 SFT 问答构造。v2.3 加强了对长段回答重复句式、循环表达、异常中英文混入、乱码、网页模板、广告导航、弱证据样本和缺少来源约束回答的控制让最终保留的数据更适合在后训练阶段提升模型回答质量。3从源文本到可训练 QA pairsV2.3 的筛选策略围绕一个核心目标展开优先让更可能产出稳定、可回答、有教育价值问答的源文本进入后续构造流程。入选文本通常需要具备中文主体清晰、可读性强、语义连贯、结构完整、知识密度较高、信息相对自洽、能够为问题和答案提供明确依据、低重复低模板低噪声等特征。经过筛选的 selected source text 会进入 FineWeb-Edu-Ultra 数据构建链路由 GPT-4.1 mini 生成问答并经过证据对齐、格式校验和质量过滤后导出为训练格式。V2.3 的可复制难点不在于单次调用生成模型而在于把大规模中文源语料治理、标注目标定义、筛选模型训练、问答生成和质量审计串成闭环从源头判断哪些中文文本真正值得进入训练链路。数据规格与仓库组织同一批 QA pairs 同步提供 Alpaca、Messages、Messages-no-system 三种格式。由于同一问答会被导出为多种训练格式实际训练时应根据模型模板选择对应 split。真实样例样例一语文知识 Question “什么是AABB结构成语请结合摇摇摆摆、清清楚楚等例子说明其特点和表达作用并举例说明正确与错误使用该类成语时可能带来的语义或语境差异。” Answer “AABB结构成语由两个相同的双字组成例如“摇摇摆摆”、“恍恍惚惚”、“清清楚楚”等。这类成语通常用来形容某种状态或动作的持续性、反复性或强烈程度。以“摇摇摆摆”为例它描述动作不稳或晃动的状态“清清楚楚”则表示非常明白、明确。 通过填空练习学生可以加深对这类成语构成和用法的理解与掌握。正确使用这类成语能够准确传递表达对象的特点增强语言的生动性。例如“树在风中摇摇摆摆”生动形象地描绘了树木的晃动。而错误使用可能导致语义模糊或语境不符如将“清清楚楚”用于形容模糊的事物会使表达产生矛盾影响理解。 总之掌握AABB成语的结构和语境适用有助于提高语文表达的准确性和丰富性。” 样例二工业自动化 Question “组态软件如何利用实时多任务和多线程技术提升工业自动化中的数据采集与监控效率其良好可靠性、可扩展性和封装性对系统性能和用户操作有哪些具体影响请结合实例说明丰富的图形工具和设备驱动如何满足复杂工业需求。” Answer “组态软件通过采用多线程操作实现了实时多任务处理使其能够在工业自动化环境中快速响应各类数据采集与监控需求。多线程机制保证监控界面能够实时刷新同时支持数据的及时输入与输出从而提高了系统的响应速度和效率。 良好的可靠性依赖于稳定的硬件配置及供电系统配合同时支持第三方程序接口增强了软件与不同硬件及系统的兼容性降低系统运行故障率。软件的可扩展性允许用户通过开发应用程序对控制系统进行微调和功能拓展使系统能够适应不断变化的工业需求。封装性方面组态软件将复杂的编程操作封装在图形化界面中使非专业编程人员也能轻松通过图形界面完成系统配置提高了用户操作的便利性和效率。 举例来说丰富的图形工具和标准图形库支持用户快速创建直观的人机交互界面便于实时监控生产过程。多样化的设备驱动程序则保障了不同硬件设备间的稳定通信并支持自定义通信协议和驱动程序开发包从而满足复杂工业自动化系统中多样化的设备接入与数据交互需求。总体而言这些特性协同作用有效提升了工业自动化系统的控制精度、运行稳定性及操作便捷性。”快速开始from datasets import load_dataset ds_messages load_dataset( OpenCSG/Fineweb-Edu-Chinese-V2.3, splittrain_messages, ) ds_messages_no_sys load_dataset( OpenCSG/Fineweb-Edu-Chinese-V2.3, splittrain_messages_no_sys, ) ds_alpaca load_dataset( OpenCSG/Fineweb-Edu-Chinese-V2.3, splittrain_alpaca, )OpenCSG全球开源生态OpenCSG发布的FineWeb-Edu-Chinese作为全球下载量排名前三的中文预训练数据集,累计下载超百万次其价值已经得到业界广泛认可:学术领域被斯坦福大学、清华大学、中国人民大学高瓴人工智能学院、上海人工智能实验室、北京智源研究院等 20 余家顶尖机构的论文引用。旗下 Chinese Fineweb Edu 已成为中文 NLP 研究的核心数据资源被 100 篇学术论文引用在 NeurIPS、ACL、EMNLP、ICLR 等国际顶会及 Nature 子刊、JMLR 等权威期刊中作为核心实验数据集支撑大模型预训练、指令微调等前沿研究合作机构还包括鹏城实验室、西南电子技术研究所、西班牙国家级超算中心Barcelona Supercomputing Center及 Mozilla Data Collective等全球顶尖科研单位。产业应用:支撑 Llama3-Chinese、DeepSeek 等知名模型训练并被中国移动、中国联通、英伟达NVIDIA、苹果公司Apple Inc.、OPPO、美团、阿里巴巴、蚂蚁集团、面壁智能ModelBest、Krafton等领军企业采用。Chinese Fineweb Edu 已从实验室走向产业场景为创业公司到头部企业的研发团队提供可靠支撑切实推动中文 NLP 应用从理论落地到生产实践。生态影响:下载数量累计超百万次数据体量达 2.42TB覆盖 9.57 亿条高质量文本已孵化出 10 余个垂直领域微调模型。同时OpenCSG 通过开源打分模型和完整工具链输出数据治理方法论带动行业从“模型参数内卷” 转向 “数据基建完善”显著降低中小开发者与研究机构的入门门槛。开源生态OpenCSG 坚持“开源即文化”的理念通过透明、共创、共享的社区文化与全球开发者、工程师和 AI 原生企业共同构建智能体生态。数据地址OpenCSG社区https://opencsg.com/datasets/OpenCSG/Fineweb-Edu-Chinese-V2.3Hugging Face社区https://huggingface.co/datasets/opencsg/Fineweb-Edu-Chinese-V2.3魔搭社区https://www.modelscope.cn/datasets/OpenCSG/Fineweb-Edu-Chinese-V2.3关于OpenCSGOpenCSG 是全球领先的开源大模型社区平台致力于打造开放、协同、可持续生态AgenticOps是人工智能领域的一种AI原生方法论由OpenCSG开放传神提出。AgenticOps是Agentic AI的最佳落地实践也是方法论。核心产品 CSGHub 提供模型、数据集、代码与 AI 应用的 一站式托管、协作与共享服务具备业界领先的模型资产管理能力支持多角色协同和高效复用。

相关新闻