
八月份有一家做五金出口的独立站原本谷歌收录有4500个页面。到了九月中旬收录量滑落到1200个。后台的谷歌站长工具里堆满了“已抓取-目前尚未编入索引”的标记。不少外贸外销员发现原本排在第二页的产品名次完全见不到了。线上店铺遇到了大范围的索引清理。过去依靠软件自动拼凑文章、堆砌50个同义词的方法失灵了。机房的服务器需要耗费大量电力分给新站点的爬取额度正在缩减。过去抓取网页的习惯是先存进库里慢慢挑选现在的做法是把不合格的页面丢弃在门外。很多公司在做外贸推广时以为页面数量多能拿到流量。老旧的想法在今年碰了壁。谷歌调整了服务器的资源分配开支用在能够帮到用户的网页上。一个网站连续更新了30篇内容每篇是从别处抄来的爬虫会减少来访的频率。以前一星期来访500次以后一星期只来3次。有些企业主觉得每天在发新产品收录数不应该掉。他们忽视了垃圾邮件过滤系统的威力。新出的SpamBrain系统在几秒钟内能算出一篇稿件的原创度。发现文中的句子结构同互联网上已有的1万篇文章重合度高达80%该页面会被丢进待处理区。很多技术员误以为给文字加粗或者增添一千个单词能提高收录。新规则只看页面能不能解决读者的疑问。一篇文章如果全是通篇的套话查重率高过35%会被判定为无效页面。不少人在写产品介绍时喜欢用很多华丽的长句偏偏不写产品的使用寿命、具体规格。文字质量的排查要点页面缺少个人操作过的实机图片全是用图库里的免版权公用图。文章里没有行业人员的署名缺少能追溯的真实资历介绍。段落全是搬运书本上的教条没有写出自己在工厂里的发现。文字长度低于400字只有型号名称没有讲清具体的使用办法。标签堆满了毫无关联的买卖词组意图欺骗抓取程序。相同的一段话在不同的产品分类页里重复出现了10次以上。写铝合金窗框的网页只介绍窗框的材质不写耐腐蚀测试的实测数字会被丢进未索引区。统计显示带有真实修理视频或者10个以上用户评测的页面被收录的速度比普通文本快了将近4倍。读者停留在页面的时间少于15秒算法判定该内容没有用处。美国一家做电子元器件的B2B网站撰写了一篇关于芯片焊接流程的5000字文。文中没有放入任何温度参数缺乏具体的电烙铁品牌推荐被判定为低质量文本。与之相对另一家写了800字文的公司列出了清晰的5个步骤贴出了3张温度显示器的实拍照片网页在上线48小时内通过了索引。自动生成的文字带有极强的机械特征。新出的SpamBrain系统专门对每天生产20篇以上文章的站点进行定点排查。一个域名在三天内冒出了500个新网页里面没有一句是行业专家说的话主站的抓取额度会归零。很多管理人员贪图省事用机器批量写了大量新闻。那些文字读起来顺畅其实没有一句有用的话。谷歌的识别系统算出词汇的出现概率轻易辨别出是不是机器写的。文本特征对比表文本项目被清理的自动化文本被留下的正常人文本词汇重复率100个词里有15个固定套话词汇多变口语化强信息来源模糊不清的说法标明了行业报告第4页链接分布每隔50字塞入一个外链只有2个真正有用的参考名修饰词数量充斥大量虚浮的赞美词大多是动词、技术名词全站有70%的内容是用机器拼凑的已经入库的老页面会被分批剔除。他们宁可让索引库空着不愿意把服务器的存储空间让给没有经过人工审核的内容。页面的打开速度影响了爬虫的耐心。一台服务器在1.5秒内没有吐出内容爬虫会转去爬取其他商户的站点。很多企业往网站上发图片每张图有5MB大小导致网页转了很久打不开。延迟抓取的常见技术短板网站移动端加载时间高过3.8秒用户没看完就关掉了。页面里包含了15个以上的死链接爬虫走到了死胡同。图片大小超过了2MB耗费了太多的服务器带宽。代码里有大量的无效标签阻挡了抓取工具的读取。导航栏改动后造成了300个页面没有内部链接指向。连续出现504网关超时报错证明服务器配置太低。网站没有配置合规的证书浏览器弹出了安全警告。页面在手机上显示时按钮重叠在一起无法正常点击。那类使用了大量特效代码的页面爬虫在读取时耗费原本3倍的计算量。你的网站在下午两点有50个蜘蛛访问服务器主板占用率冲到了95%机房会自动封锁爬虫。新品页面会连续三个月无法入库。温州一家做塑料模具的公司网站开通了多语言插件自动生成了法语、德语、西班牙语等24个语种的子域名。每个语种下有3000个零碎页面。那类做法导致蜘蛛陷入了死循环。蜘蛛在两小时内抓取了4万个无意义的网址耗尽了当月的配额。那之后的三个月里该站长发现连原本收录好的中文主页也被剔除了。清除掉不合格网页收录量会慢慢回升。我们可以用以下五个步骤梳理网站的健康度导出一份最近90天内没有拿到过任何点击的网页名单。将那些字数低于300字、内容过时的陈旧网页全部挑出来。选出20个主打的产品页把里面的文字通篇精简删掉空话。把每张图片的体积控制在150KB以内给图片加上描述词。在首页底部写上公司的真实电话、办公地址、营业执照号。增加信任度不是靠吹嘘公司的规模要靠提供查得出的实体信息。一家在纽约拥有实体办公室的外贸公司在网页上写明了详细的街区门牌号其页面的收录率在十天内提升了25%。隐藏了联系方式的匿名网站新发出来的100个页面里往往只有3个能通过初审。多去看看站长工具里的错误提示。发现有404报错及时用301重定向导向正确的页面。保持网站的干净、整洁比盲目去写一万字毫无用处的文章要明智得多。