一堆格式乱七八糟的数据要清洗标准化,我让 Agent 干了大半

发布时间:2026/6/8 14:06:32

一堆格式乱七八糟的数据要清洗标准化,我让 Agent 干了大半 接手过一批历史数据那叫一个惨地址有的带省有的不带、电话格式五花八门、日期2026/6/126年6月6.1什么都有、公司名各种简称全称混着。要入库前标准化纯写规则能写吐——情况太多正则根本枚举不完。这种规则多到写不完、但人一看就懂的清洗Agent 比硬规则灵活。说说做法。思路规则能搞定的归规则搞不定的交 Agent别指望 Agent 干所有事。明确格式的比如电话去空格用规则又快又准真正乱、需要理解的地址补全、公司名归一、模糊日期解析才交给 Agent。我用讯飞星辰搭了个标准化助手设定里写清楚目标格式和规则把脏字段丢给它输出标准化后的结果。规则Agent 配合比纯规则覆盖广比纯 Agent 省钱。关键输出要结构化让它返回固定字段的 JSON下游直接入库输出不稳的问题前面文章聊过得约束。拿不准别瞎填识别不了的字段让它标存疑而不是硬编一个留人工复核。抽检清洗结果一定要抽样核对别清完直接全量入库错了就是脏上加脏。坑它会自信地标准化错比如把不同的公司归成一个。关键字段宁可保守。量大算成本海量数据先用规则过一遍剩下规则搞不定的再喂 Agent。不可逆操作留原始清洗后另存别覆盖原始数据。规则 Agent 配合清洗又快又能 handle 脏 case。怎么划分规则管哪些、Agent 管哪些我放评论区了。你们清洗脏数据都咋扛的

相关新闻