
前言在全球互联网流量中自动化爬虫、恶意机器人占比常年突破 40%比价爬虫、数据爬取、账号批量注册、接口暴力爬取持续侵蚀企业数据与服务器资源。Akamai Bot Manager 作为全球商用反爬虫标杆产品依托覆盖 130 国家、数千边缘节点的分布式 CDN 网络在访问抵达源站前完成全链路爬虫识别区别于传统 WAF 依靠单一 IP、UA 拦截的粗放策略采用网络指纹 客户端硬件指纹 人机行为建模 动态挑战 全球威胁情报 AI 打分六层联动识别体系实现对简易 http 爬虫、无头浏览器爬虫、模拟真人设备爬虫、分布式代理爬虫的分层甄别是当前风控反爬领域技术复杂度最高的产品之一。本文从底层技术逐层拆解其爬虫识别逻辑。一、底层网络层识别TLS/HTTP 协议指纹拦截原生简易爬虫爬虫最基础的破绽集中在 TCP、TLS 握手与 HTTP 请求协议细节Akamai 在边缘节点第一时间抓取网络报文特征依靠 JA3 指纹、协议异常特征完成首轮过滤。JA3/TLS 指纹校验每一款正规浏览器Chrome、Edge、Firefox在 TLS 握手时加密套件顺序、TLS 版本、扩展字段、椭圆曲线组合固定哈希后生成专属 JA3 指纹而 Python Requests、Axios、原生 curl 等爬虫工具、早期无头框架握手参数杂乱无序UA 声明是 Chrome但 JA3 指纹与官方浏览器库不匹配直接标记为可疑爬虫。即使爬虫修改 UA无法同步修改底层 TLS 握手逻辑成为简易爬虫难以规避的硬特征。HTTP 报文细节异常检测系统抓取请求头数十项特征请求头字段排序、多余自定义 Header、Cookie 携带逻辑、编码格式、Connection 字段、缓存控制参数。真人浏览器由浏览器内核自动生成有序请求头爬虫大多手动拼接 Header字段顺序错乱、缺失标准字段同时监测请求报文熵值批量爬虫请求报文格式高度统一熵值远低于自然人随机访问被快速标记自动化流量。IP 与连接画像分析依托 Akamai 全球威胁情报库标记代理池 IP、数据中心 IP、恶意僵尸网络 IP同时统计单 IP 短时间 TCP 连接频率、端口复用规则、网络往返时延波动短时间高频新建连接、时延固定无波动基本判定批量爬虫集群访问。二、客户端硬件指纹识别Sensor-Data 体系抓取浏览器底层环境破绽网络层绕过之后Akamai 通过页面嵌入加密 JS 脚本在客户端浏览器静默采集数百项软硬件特征封装为X-ACF-Sensor-Data加密字段回传服务端是识别无头爬虫、伪装浏览器爬虫的核心手段也是整个指纹体系的核心载体。 采集特征分为四大类渲染环境指纹Canvas、WebGL、Audio 指纹正规浏览器渲染画布、WebGL 显卡渲染、音频采样会受本机显卡、声卡驱动影响生成细微哈希差异Puppeteer、Playwright 等无头爬虫默认无硬件渲染环境渲染结果哈希固定是无头爬虫最经典破绽。例如 UA 标注桌面版 Chrome但无法调用 WebGL 接口、返回空渲染参数直接判定自动化程序。系统与浏览器环境特征采集操作系统版本、屏幕分辨率、可用字体列表、时区、CPU 核心数、浏览器插件清单、Navigator 各项参数。爬虫虚拟机环境常出现矛盾特征声明 Windows 系统但字体列表只有寥寥数行、分辨率固定 1366×768、时区错乱多特征冲突即判定爬虫环境。存储与运行环境校验探测 LocalStorage、IndexDB、SessionStorage 读写权限、JS 引擎漏洞特征无头浏览器默认禁用部分本地存储和真实浏览器行为不一致同时监测 JS 执行时序爬虫脚本执行速度均匀无波动自然人设备受后台进程影响执行耗时随机波动。指纹持久化_abck 与 Cookie 绑定客户端生成设备唯一指纹后生成_abck 校验 Cookie 随请求回传同一设备频繁更换 IP 但指纹不变即可锁定单机爬虫持续爬取即便爬虫切换代理 IP硬件指纹不变依旧被持续风控。整套指纹采集多达 500 维度特征单一特征异常存疑多项特征偏离基线即拉高爬虫风险分数。三、行为轨迹 AI 建模从人机交互差异识破模拟真人爬虫爬虫最大短板是无法复刻人类随机操作习惯Akamai 依托海量自然人访问样本训练机器学习模型从页面全生命周期行为数据构建行为基线依靠行为熵值区分自动化访问。1. 鼠标与光标行为检测人类鼠标移动为不规则曲线、频繁停顿、小幅晃动爬虫模拟移动多为直线匀速位移、坐标点位间隔完全均等轨迹熵值极低点击操作人类点击存在坐标偏移、点击间隔随机爬虫精准点击目标坐标、点击时间严格固定批量爬虫点击时序完全一致。2. 页面浏览行为建模监测页面访问顺序、页面停留时长、滚动速率、返回上一页频次自然人会无规律滚动页面、中途跳出、跨栏目跳转爬虫严格按照固定 URL 顺序访问每个页面停留时间毫秒级固定无无效跳转、无随机浏览行为。3. 键盘输入特征账号密码爬取、表单爬虫输入字符间隔均匀无停顿、无删改字符真人输入存在错删、停顿、打字间隔离散系统通过输入时间分布熵值快速区分人机。系统针对每个站点单独训练基线模型区分普通用户、移动端用户、小众浏览器用户避免正常访客误拦截。四、动态加密 JS 挑战Crypto Challenge算力校验拦截自动化解析爬虫当指纹、行为两项数据出现异常Akamai 下发动态加密算力挑战即业界熟知的 JS 加密谜题将验证成本转移至客户端无完整浏览器内核的爬虫无法通过校验。挑战逻辑边缘节点下发随机、动态变更的混淆加密 JS 代码包含大数运算、哈希嵌套、环境自检三类任务需要客户端在限定时间内完成运算并回传结果爬虫难点Requests、HttpClient 等无 JS 引擎的爬虫完全无法执行代码无头爬虫即便搭载 JS 引擎代码持续动态混淆、每一次访问挑战算法随机变化逆向解析成本极高强行破解会消耗大量算力大幅抬升爬取成本分级处置挑战失败则跳转图形验证码连续多次验证异常直接封禁 IP 与设备指纹。区别于固定验证码Akamai 加密挑战无固定题库算法实时迭代规避爬虫打码平台批量破解。五、全球威胁情报与 Bot 分类库黑白名单精准区分善意 / 恶意爬虫Akamai 运营数十年积累全球海量机器人样本库分为已知可信 Bot、中性爬虫、恶意爬虫三类实现精细化放行与拦截白名单可信爬虫谷歌爬虫、必应爬虫、官方合作搜索引擎依靠固定 IP 特征指纹入库自动放行不触发任何风控校验黑名单恶意爬虫历史恶意爬取、黑产爬虫、暴力破解程序的 IP、指纹、UA 全部录入全球情报库跨站点共享黑名单只要相关特征出现直接拦截未知新型爬虫依靠 AI 无监督学习对比全站流量基线突发新增异常访问特征自动标记为新型爬虫补充进入威胁库实现持续迭代防御。六、Bot Score 量化打分体系多维度加权汇总分级处置爬虫以上所有检测维度数据最终汇总为0-100 分 Bot 风险评分是 Akamai 最终判定爬虫的核心标准平台自定义分数阈值实现分级管控Akamai低分值0-30正常自然人流量全放行无任何校验中分值30-70疑似可疑访问静默下发轻量 JS 挑战后台持续观测后续行为不直接弹窗高分值70-90高度可疑爬虫强制弹出验证码验证满分区间90 以上确认恶意爬虫直接拦截请求、返回 403同时拉黑设备指纹与 IP 一段时间。分数采用动态加权短时间高频访问权重最高硬件指纹多项异常次之行为异常为辅单一项轻微异常不会直接判定爬虫保障正常用户不会误拦截。七、爬虫识别补充区分合法爬虫与恶意爬虫的落地逻辑Akamai 并非一刀切封禁所有自动化程序依靠规则配置区分业务所需合作爬虫与黑产爬虫企业可自定义域名白名单、指定合作爬虫 IP 段放行对于价格采集、内容盗爬类恶意爬虫依靠上述六层识别全链路拦截兼顾业务可用性与数据安全。总结Akamai Bot Manager 的爬虫识别本质是多层特征交叉验证从网络层到硬件层、行为层、挑战层层层递进简易爬虫栽在网络指纹普通无头爬虫栽在硬件 Sensor 指纹精心模拟真人的高级爬虫栽在行为建模与动态加密挑战分布式代理爬虫栽在全球威胁情报与指纹持久化追踪。整套体系依托边缘分布式架构就近完成检测不会占用源站算力也是其成为全球头部反爬产品的核心原因。随着爬虫技术迭代Akamai 持续迭代 JS 加密算法与 AI 行为模型形成攻防动态平衡。