
North American News Text, General Release官网编号 LDC2008T16是 LDC 于 2008 年发布的北美英文新闻文本通用发布版语料库由 BLLIP 实验室构建是 LDC2008T15完整版的子集主打轻量化与通用性适配语言建模、句法解析等基础 NLP 任务为英文新闻文本的统计与深度学习研究提供高质量无标注数据。以下是详细介绍基础信息项目详情全称North American News Text, General Release官网编号LDC2008T16发布机构Linguistic Data ConsortiumLDC开发机构布朗大学 BLLIP 实验室发布时间2008 年数据语言英文北美新闻文体数据规模约 100 百万词1 亿词含《洛杉矶时报》《华盛顿邮报》《纽约时报》《路透社》等多源新闻文本数据格式带 SGML 标记的 ASCII 纯文本按媒体来源与时间戳分档附带数据说明文档数据来源北美主流报纸、通讯社的新闻报道覆盖政治、经济、体育、娱乐等多领域话题开发背景为大规模语言模型训练、句法解析器评测提供轻量化无标注新闻文本支撑 NLP 基础技术研发