数字炼金术的配方书:AI 谈吐间泄露的训练密码

发布时间:2026/6/2 6:32:49

数字炼金术的配方书:AI 谈吐间泄露的训练密码 项目内容标题LLMSurgeon: Diagnosing Data Mixture of Large Language Models作者Yaxin Luo, Jiacheng Cui, Xiaohan Zhao, Xinyi Shang, Jiacheng Liu, Xinyue Bi, Zhaoyi Li, Zhiqiang Shen机构VILA Lab, MBZUAI; UCLarXiv ID2605.30348发表日期2026-05-28分类cs.CL, cs.AI, cs.LG核心论点仅通过目标 LLM 生成的文本,即可反推其预训练语料库的领域级别分布,无需接触训练数据、权重或内部状态

相关新闻