
导语AI Agent、MCP、A2A、多阶段 RAG 正在快速汇合成一个新方向面向真实任务的“证据工程”。对科研场景来说能不能拿到结构化元数据、可回链原文片段、图表资源和可复现实验流程比“回答得像不像”更重要。Sciverse 的价值恰好就在这里。热点背景为什么现在值得关注最近两个月几个公开信号非常明确且都指向同一个判断: 科学智能正在从“会说”转向“会取证、会验证、会协作”。热点时间关键信号对 Sciverse 的意义MCP 官方文档持续强调“开放标准”持续更新中工具调用正从私有集成走向标准化接口科学检索能力更适合作为标准工具暴露给 AgentGoogle 发布 A2A2025-04-09Agent 不只要调工具还要彼此协作Sciverse 可成为科研 Agent 链中的专业检索节点OpenAI 发布新 Agents/Tools 能力2025-03-11工具、检索、执行逐渐成为模型 API 原语科学数据能力更容易嵌入主流 Agent runtimePT-RAG 提出面向学术论文的结构保真检索2026-02-18科学论文不是普通网页章节、图表、公式都影响召回说明科研 RAG 必须重视文档结构与原文定位MASS-RAG 与 Agentic Hybrid RAG 等工作出现2026-04-08、2026-06-09多 Agent 合成、多阶段证据聚合成为前沿方向Sciverse 适合充当证据层而不是只做“最后一问”一句话概括这轮变化通用 Agent 的上限越来越取决于它背后是否接了“专业证据基础设施”。这也是为什么科研场景值得单独看。论文、专利、图表、表格、章节上下文、DOI、年份、期刊、引用数这些都不是通用网页搜索天然能处理好的对象。为什么这件事和 Sciverse 高度相关从公开主页、仓库和当前前端 PRD 看Sciverse 不是一个单纯的“科研问答壳”而是在往“科研 Agent 的证据入口层”靠拢。当前可核实的公开能力包括官网强调可连接Cursor、Claude、Codex等客户端并覆盖科学搜索、化学、蛋白等场景。opendatalab/Sciverse-Agent-Tools仓库公开了 API、SDK、CLI、MCP Server 与 OpenAPI。本地前端原型和 PRD 已经把能力拆成自由检索、生成研究综述、筛选论文清单、跟踪研究方向四类科研任务。前端 API 封装显示当前围绕五类核心调用组织:meta-catalog、meta-search、agentic-search、content、resource。这意味着 Sciverse 的切入点非常清楚不是替代大模型做结论而是给大模型提供一套“科研证据可操作面”。技术拆解从“检索”升级到“证据工程”如果把一个科研 Agent 拆开最容易被忽视、但最关键的一层其实是证据层。用户问题 - 任务判别综述 / 筛选 / 跟踪 / 自由检索 - 元数据能力meta-catalog / meta-search - 语义证据召回agentic-search - 原文定位与扩窗content - 图表/表格资产回取resource - Evidence Pack 组装 - LLM 生成综述 / 比较 / 计划 - 人工复核 / 可复现实验这条链路里Sciverse 最有价值的不是“能搜到东西”而是下面三点1. 先用元数据筛再做语义召回很多科研问题不是一句模糊提问而是带约束的近三年某几个期刊引用数下限某一类文献类型指定语言或来源这时如果直接向量检索召回往往会被“语义相近但任务不匹配”的文献污染。更合理的路线是meta-catalog - meta-search - agentic-search先确定能筛哪些字段再缩小候选集再做语义证据抽取。2. 证据必须能回到原文位置科研场景里只有“答案”没有“出处定位”基本不够用。Sciverse 的content(doc_id, offset, limit)这类能力很关键因为它让 Agent 不止能引用文献标题还能回到具体片段、页码或上下文区间。这样做有两个直接收益降低综述生成时的“引用像真的但其实没对上原文”为人工复核保留最短路径3. 图表和表格资源是科学推理的一等公民很多关键结论不在摘要里而在 figure、table、supplementary material。resource这类接口的意义在于把“可视化证据”从论文附件里拉回 Agent 工作流。对生命科学、化学、材料尤其如此。很多差异结论只有落到实验图表才看得清。用 Sciverse 搭一个“证据优先”的科研 Agent下面给一个可改造的 Python 示例。它不追求做完整产品只演示一条最有价值的骨架先筛元数据再抓语义片段再回原文组装 evidence pack。# pip install sciverse# export SCIVERSE_API_TOKENyour_tokenimportasyncioimportjsonfromsciverseimportAgentToolsClient QUERYCompare recent retrieval architectures for evidence-grounded scientific literature reviewYEAR_FROM2024asyncdefmain():clientAgentToolsClient()# 1) 看当前可筛字段避免盲写过滤条件catalogawaitclient.list_catalog(include_sample_valuesTrue)# 2) 先做元数据筛选papersawaitclient.search_papers(queryscientific literature review RAG evidence grounded,filters[{field:publication_published_year,operator:FILTER_OP_GTE,value:YEAR_FROM,}],page_size5,)# 3) 再做语义证据召回evidence_hitsawaitclient.semantic_search(queryQUERY,top_k5,source_types[pdf,web],modebalanced,)# 4) 回原文组装 evidence packevidence_pack[]forhitinevidence_hits.results[:3]:contentawaitclient.read_content(doc_idhit.doc_id,offsetgetattr(hit,offset,0)or0,limit2200,)evidence_pack.append({title:getattr(hit,title,),doc_id:hit.doc_id,score:getattr(hit,score,None),snippet:getattr(hit,chunk,),content:getattr(content,text,str(content))[:2200],})print(json.dumps({candidate_papers:papers.model_dump()ifhasattr(papers,model_dump)elsestr(papers),evidence_pack:evidence_pack,},ensure_asciiFalse,indent2))asyncio.run(main())这段代码的真正用途不是直接生成最终文章而是生成一个更可靠的中间层对象evidence_pack。后续无论接 OpenAI、Claude 还是自建模型都应该让 LLM 基于这个包生成而不是直接裸问。Sciverse 适合切入的产品位如果把市场上常见方案放在一起比较Sciverse 更像“科研 Agent 的证据底座”而不是单点聊天工具。方案长处短板更适合的角色通用网页搜索 LLM接入快覆盖广结构化筛选弱原文定位弱科学图表回取弱灵感探索纯向量库 RAG私有语料可控对论文元数据、跨来源证据和图表支持不足私有知识问答Sciverse 风格证据层元数据筛选、语义召回、原文扩窗、资源回取更完整需要和上层 Agent 编排配合科研 Agent 基础设施端到端科研 Copilot使用门槛低黑盒感强难以拆证据链面向最终用户的工作台最值得传播的一句话是未来真正有竞争力的科研 Agent不是谁“最会写”而是谁“最会拿证据”。评测与验证本文未进行实测跑分。下面只给出可复现实验方案便于团队后续真实评估不伪造准确率、吞吐、延迟或成本。评测目标比较三条路线在科研综述任务上的可靠性与可复核性通用 Web Search LLM纯语义 RAGSciverse 证据工程链路meta-search - agentic-search - content - resource - LLM建议任务集选 3 个主题每个主题做 10 个问题共 30 个样本方向示例主题生命科学CRISPR 脱靶、mRNA LNP、蛋白功能预测化学/材料固态电解质、碳捕获材料、钙钛矿稳定性AI for Sciencecitation grounding、scientific review generation、evidence-grounded RAG指标设计只建议记录可核查指标指标含义记录方式Citation Grounding Rate引文是否能回链到真实原文片段人工抽检Evidence Coverage关键论点是否有足够证据支撑双人标注Metadata Precision年份、期刊、DOI 等是否正确与原文核对Reproducibility同一问题重复执行时证据链是否稳定固定参数复跑 3 次Human Review Time审稿人完成复核所需时间计时记录调用步骤固定同一批问题集与同一模型版本。对三条路线使用相同输出模板。保存每次检索请求、返回候选、最终引用文献列表。对每条引用做“是否可定位到原文”核验。记录失败模式例如找到论文但没定位到证据语义相关但年份不对结论成立但引用不匹配图表结论未被正文支持记录模板## Sample ID - Query: - Pipeline: - Model: - Retrieval Params: - Returned Sources: - Final Claims: - Citation Grounding Pass/Fail: - Metadata Errors: - Reviewer Notes: - Re-run Stability:现在最值得做的不是更大的提示词而是更短的证据路径过去一年很多团队都在讨论 Agent 工作流、工具调用和模型编排。但到了科研场景真正决定可用性的不是链路有多复杂而是能不能先筛对文献能不能回到原文片段能不能把图表也纳入证据能不能让复核成本足够低Sciverse 的公开能力恰好踩在这几个关键点上所以它更适合被理解为一层面向科研 Agent 的证据基础设施而不是又一个“会聊天的科研助手”。CTA如果你在做科研检索、综述生成、论文筛选、方向追踪或者正在给通用 Agent 补“科研能力栈”值得直接试一遍 Sciverse 的公开入口与 Agent Tools先从官网了解能力边界与场景再看Sciverse-Agent-Tools的 API / SDK / MCP Server最后用一条真实研究问题把meta-search agentic-search content串起来很多时候产品差异不在最终回答页面而在那条别人看不见的证据链。来源列表Sciverse 官网: https://sciverse.space/Sciverse Agent Tools 仓库: https://github.com/opendatalab/Sciverse-Agent-ToolsMCP 官方文档: https://modelcontextprotocol.io/introductionGoogle A2A 官方博客2025-04-09: https://developers.googleblog.com/en/a2a-a-new-era-of-agent-interoperability/OpenAI《New tools for building agents》2025-03-11: https://openai.com/index/new-tools-for-building-agents/OpenAI FrontierScience 页面: https://openai.com/index/frontierscience/