影刀RPA店群自动化实战:商品详情页违规词自动检测与批量替换系统设计

发布时间:2026/6/9 2:13:27

影刀RPA店群自动化实战:商品详情页违规词自动检测与批量替换系统设计 影刀RPA店群自动化实战商品详情页违规词自动检测与批量替换系统设计店群商品合规不止是标题。详情页里的描述词、图片上的文字、甚至属性值都可能触发平台违规。一个“纯棉”用在不含棉的面料上是虚假宣传一个“抗菌”用在没有检测报告的普通袜子上是夸大功效。更别提广告法禁用词“最”、“第一”、“顶级”。人工审核详情页比看标题难十倍。一个商品详情页可能有几百上千字加上几张带文字的图片运营根本看不过来。我们以前吃过亏一款“磁疗护膝”详情页写了“治疗关节疼痛”被平台定性为虚假宣传店铺扣分限流半个月。店群矩阵自动化突破运营极限后来我们用影刀RPA和Python搭建了一套商品详情页违规词自动检测与批量替换系统自动抓取所有在售商品的详情页文本图片OCR按规则库扫描违规词并批量替换或下架。同时系统还能与供应商稿件联动在商品上架前预检从源头杜绝违规。这篇文章不讲订单也不讲广告。专门聊聊店群详情页合规自动化的工程实践如何大规模抓取详情页文本如何集成图片OCR识别文字如何设计高效的违规词匹配算法以及如何实现批量替换和变更回滚。适用场景商品数量多、详情页内容复杂、对合规要求高的店群项目。技术栈影刀RPA Python OCRTesseract/云服务 布隆过滤器 配置中心。temu店群自动化报活动案例一、详情页合规检测的三大痛点先看一个真实案例。某日用品店群商品详情页中大量使用“抑菌”“除螨”等词汇但产品并无相关检测报告。平台稽查后一次性下架了30多个商品店铺流量跌了60%。痛点一详情页文本量大人工无法逐页审核每个商品的详情页少则几百字多则上千字。几百个商品就是几十万字运营根本不可能逐字阅读只能抽查漏网之鱼很多。痛点二违规词藏在图片中详情页中的图片常常包含促销文字、功效说明。OCR文字识别需要额外处理人工更难发现。痛点三供应商提供的描述模板本身含违规词供应商发来的商品资料本身就可能含有“全网最低”“治疗”等词。运营直接复制上传违规从源头上就埋下了。自动化的目标系统每天自动扫描所有在售商品的详情页文本图片匹配违规词库高亮违规位置自动替换或下架商品支持批量修改和版本回滚并提供上架前的预检接口。二、整体架构在这里插入图片描述系统分为六个模块。详情页抓取模块影刀RPA定时登录店铺后台抓取每个商品的详情页HTML或纯文本描述以及详情页所有图片的URL。推送到消息队列。OCR文字识别模块对详情页中的图片调用OCR服务提取文字合并到该商品的文本描述中。违规词库管理模块存储平台禁用词、广告法禁用词、行业敏感词支持分类高危、中危、低危支持正则表达式和模糊匹配。匹配引擎模块对商品描述文本进行高效多模匹配AC自动机/布隆过滤器定位违规词及其位置。自动修复模块根据预设策略自动替换违规词如将“最优惠”替换为“优惠”或自动下架商品并记录操作日志。预检接口模块供应商上传商品资料时自动调用检测服务标记出违规词要求修改后才允许上架。下面重点讲解详情页抓取、OCR识别和匹配引擎。三、详情页抓取与文本提取影刀RPA脚本登录店铺后台进入“商品管理”遍历所有在售商品抓取“详情描述”的内容。对于富文本编辑器HTML脚本需要提取纯文本去除标签。可以使用Python的BeautifulSoup或正则。# detail_crawler.pyclassDetailCrawler:def__init__(self,shop_id):self.shop_idshop_iddeffetch_all_products(self):products[]# 模拟分页抓取page1whileTrue:htmlrpa.get_product_list_page(page)product_idsextract_ids(html)ifnotproduct_ids:breakforpidinproduct_ids:detailself.fetch_detail(pid)products.append({product_id:pid,detail_text:detail[text],image_urls:detail[images]})page1returnproductsdeffetch_detail(self,product_id):driverrpa.get_driver()driver.get(fhttps://shop.com/product/edit?id{product_id})# 切换到详情页编辑器获取HTMLeditor_htmldriver.execute_script(return document.getElementById(detailEditor).innerHTML)textBeautifulSoup(editor_html,html.parser).get_text()# 提取图片URLimg标签的srcimages[img[src]forimginBeautifulSoup(editor_html,html.parser).find_all(img)]return{text:text,images:images} 抓取到的文本和图片URL推送到Kafka。---## 四、图片OCR文字识别对于每张详情页图片调用OCR服务Tesseract本地或云OCR。为了提高效率只处理图片尺寸较大且可能包含文字的图片通过图像熵判断。 python# ocr_engine.pyimportpytesseractfromPILimportImageimportrequestsfromioimportBytesIOdefocr_image(url):responserequests.get(url,timeout5)imgImage.open(BytesIO(response.content))# 如果图片尺寸过小跳过可能只是装饰图ifimg.width200orimg.height200:returntextpytesseract.image_to_string(img,langchi_simeng)returntext.strip() 识别出的文字合并到该商品的detail_text字段中作为违规检测的输入。 由于OCR有成本和延迟我们只对一周内未检测过的图片执行OCR结果缓存30天。---## 五、违规词匹配引擎违规词库包含几千条词汇包括变体。为了提高匹配效率我们使用AC自动机Aho-Corasick实现多模匹配。 python# keyword_matcher.pyimportahocorasickclassKeywordMatcher:def__init__(self,keyword_list):self.automatonahocorasick.Automaton()foridx,kwinenumerate(keyword_list):self.automaton.add_word(kw,(idx,kw))self.automaton.make_automaton()defmatch(self,text):matches[]forend_idx,(idx,kw)inself.automaton.iter(text):start_idxend_idx-len(kw)1matches.append({keyword:kw,position:(start_idx,end_idx),context:text[max(0,start_idx-20):min(len(text),end_idx20)]})returnmatches 匹配结果按违规词分类高危/中危/低危。例如“治疗”“抗癌”为高危“全网最低”为中危“优质”为低危可能不违规但建议避免。 匹配引擎支持正则表达式例如检测“纯棉”但必须排除“非纯棉”“不含棉”等否定语境通过上下文负向匹配。---## 六、自动修复策略根据违规严重程度执行不同动作。-**高危**自动下架商品并发送告警通知运营。下架时保留快照便于后续修改。--**中危**自动替换违规词例如将“最优惠”替换为“优惠”同时记录修改日志。如果替换后内容变空或语义不通则转人工。--**低危**仅标记生成报告供运营批量确认。 替换操作通过平台API或影刀RPA修改商品详情页实现。影刀脚本定位到编辑器区域使用JS替换文本。 python# auto_fixer.pyclassAutoFixer:def__init__(self,shop_adapter):self.shopshop_adapterdefreplace_keyword(self,product_id,keyword,replacement):# 获取当前详情HTMLcurrentget_product_detail(product_id)new_htmlcurrent.replace(keyword,replacement)# 通过API或影刀更新self.shop.update_detail(product_id,new_html)log_action(product_id,replace,keyword,replacement) 所有自动修改都记录版本历史支持一键回滚恢复到修改前的HTML。---## 七、上架前的预检拦截为了从源头杜绝违规我们在商品上架流程中增加一个“预检”步骤。 运营上传商品Excel或导入供应商稿件时系统自动调用检测API返回违规词汇列表和位置。运营必须确认或修改后才能继续上架。 预检API响应示例 json{has_violation:true,violations:[{field:detail,keyword:最优惠,severity:medium,suggestion:改为“优惠”}]} 影刀RPA上架脚本在填写详情页前先调用预检接口。如果存在高危违规脚本直接中止并提示运营如果是中危脚本可以自动应用建议的替换或等待运营确认。 这样可以有效防止供应商资料中的违规词流入线上商品。---## 八、定期巡检与增量扫描除了上架前预检系统每天凌晨执行全量巡检扫描所有在售商品的详情页包括新修改的内容。对于历史违规生成报告并自动修复。 为了避免重复扫描无变化的商品我们使用内容哈希将详情页文本和图片URL列表计算MD5如果与上次扫描一致则跳过。 对于新增或修改过的商品优先扫描。---## 九、真实踩坑与经验**坑1OCR识别准确率低漏掉违规词**图片中的艺术字体、背景干扰导致OCR识别不出。我们使用云OCR如百度OCR提高准确率同时对于置信度低的文字标记为“需人工复核”。**坑2替换操作破坏了HTML结构**直接字符串替换可能将标签内的属性也替换掉例如img alt最优惠中的“最优惠”也被替换。我们使用BeautifulSoup遍历文本节点只替换文本内容不替换标签属性。**坑3违规词误判“最新款”中的“最”被当违规**广告法中的“最”需要结合语境。我们维护了一个“白名单”短语如“最新款”“最近”不触发违规。同时支持正则表达式写排除规则。**坑4大促期间批量自动修改导致错误蔓延**一次替换规则写错将“优质”批量替换成“优”导致大量商品描述出现语病。解决自动修复前先在小范围测试1%商品观察24小时无问题后再全量。并保留完整回滚能力。---## 十、效果数据与收益系统上线半年后-详情页合规检测覆盖率100%所有在售商品--日均检测商品数5000--自动修复率85%中危违规自动替换高危人工确认--因详情页违规导致的平台处罚从每月2-3次降到0--运营合规审核时间从每周10小时降到1小时 一个案例某家居店群供应商提供的详情页大量使用“抗菌”“防螨”词汇。系统在上架预检时拦截运营退回供应商修改避免了批量上架后的违规风险。---## 十一、总结让合规成为自动化的一部分店群详情页的合规管理不能靠“人肉巡检”。自动化检测和修复系统让违规词无处藏身从上架前到在售中全程防护。 建议实施路径1.先建立违规词库从平台规则和广告法中整理2.2.实现商品详情页文本的自动抓取和匹配先不处理图片3.3.增加简单替换功能如替换“最”为“很”4.4.集成OCR处理图片文字5.5.在上架流程中加入预检接口 合规不是阻碍效率而是保护长期利益。用自动化来守护合规底线才能让店群走得远、走得稳。 记住**每一个违规词都可能是平台的罚单。让机器帮你审稿比你自己瞎猜强一百倍。**---作者林焱

相关新闻