保姆级教程：用Python+SUMO+Q-learning搞定一个红绿灯优化小项目（附完整代码）-尧图网站设计

从零实现智能红绿灯PythonSUMOQ-learning实战指南十字路口的红绿灯配时问题看似简单却直接影响着城市交通的毛细血管流动。传统定时控制方案在车流量波动时表现笨拙而人工调优又难以应对实时变化。本文将带您用不到200行Python代码构建一个能自主学习的智能红绿灯系统。通过SUMO仿真平台和Q-learning算法我们将实现一个能根据实时车流自动优化信号的微型项目最终使车辆平均等待时间下降40%以上。1. 环境搭建与基础配置1.1 SUMO安装与验证SUMOSimulation of Urban MObility是开源交通仿真领域的瑞士军刀。推荐使用最新稳定版本文使用1.15.0Windows用户可通过 Chocolatey 快速安装choco install sumo验证安装是否成功import sumolib print(sumolib.checkBinary(sumo)) # 应返回sumo可执行文件路径常见问题排查PATH配置若报错sumo not found需将安装目录如C:\Program Files (x86)\Eclipse\Sumo\bin加入系统环境变量Python绑定通过pip install sumolib traci获取官方Python接口图形依赖Ubuntu用户需额外安装libx11-dev等依赖1.2 构建十字路口路网使用SUMO自带的netedit工具创建基础路网启动neteditnetedit -s example.net.xml使用Edge模式绘制四条相交道路在交叉点自动生成junction时确保类型选择traffic_light保存后会生成两个关键文件example.net.xml路网拓扑定义example.rou.xml车辆路由定义提示初始阶段可先用vType accel1.0 decel4.5 sigma0.5 length5 maxSpeed16.6/定义统一车辆类型简化调试过程。2. TraCI控制基础2.1 连接SUMO与PythonTraCITraffic Control Interface是SUMO的实时控制API。以下是建立连接的标准模板import traci import sumolib sumoBinary sumolib.checkBinary(sumo-gui) traci.start([sumoBinary, -c, example.sumocfg, --tripinfo-output, tripinfo.xml]) while traci.simulation.getMinExpectedNumber() 0: traci.simulationStep() # 推进仿真时钟 # 在此处插入控制逻辑 current_phase traci.trafficlight.getPhase(J0) # J0为路口ID traci.close()关键API方法速查表方法功能返回类型traci.vehicle.getIDList()获取当前所有车辆IDlisttraci.vehicle.getWaitingTime(vehID)获取车辆累计等待时间floattraci.trafficlight.getPhaseDuration(tlsID)当前相位剩余时长floattraci.trafficlight.setPhase(tlsID, index)强制切换信号相位None2.2 车辆数据采集优化红绿灯需要实时感知交通状态。以下代码片段计算路口各方向的排队车辆数def get_queue_counts(junction_id): approach_lanes traci.trafficlight.getControlledLanes(junction_id) queue_counts {lane: 0 for lane in approach_lanes} for veh_id in traci.vehicle.getIDList(): lane_pos traci.vehicle.getLanePosition(veh_id) speed traci.vehicle.getSpeed(veh_id) if speed 0.1: # 判定为排队车辆 lane_id traci.vehicle.getLaneID(veh_id) if lane_id in queue_counts: queue_counts[lane_id] 1 return queue_counts3. Q-learning算法实现3.1 状态与动作设计我们将红绿灯控制建模为马尔可夫决策过程状态空间各方向排队车辆数的离散组合如[0-3, 4-7, 8]三级动作空间保持当前相位或切换到下一相位奖励函数reward -sum(waiting_times)最小化总等待时间class QLearningTrafficLight: def __init__(self, junction_id): self.junction_id junction_id self.q_table defaultdict(lambda: np.zeros(2)) # 动作空间维度2 self.alpha 0.1 # 学习率 self.gamma 0.6 # 折扣因子 self.epsilon 0.1 # 探索概率 def get_state(self): queues get_queue_counts(self.junction_id) return tuple(min(q // 4, 2) for q in queues.values()) # 离散化为3级3.2 训练循环实现核心训练逻辑包含三个关键操作选择动作ε-greedy策略平衡探索与利用执行动作通过TraCI接口控制信号灯更新Q值根据即时奖励调整策略def train_episode(tl_agent, max_steps1000): traci.load([-c, example.sumocfg]) total_reward 0 for _ in range(max_steps): state tl_agent.get_state() action tl_agent.select_action(state) # 执行动作 if action 1: # 切换相位 current_phase traci.trafficlight.getPhase(tl_agent.junction_id) traci.trafficlight.setPhase(tl_agent.junction_id, (current_phase 1) % 4) # 推进仿真并计算奖励 traci.simulationStep() reward -sum(traci.vehicle.getWaitingTime(veh_id) for veh_id in traci.vehicle.getIDList()) total_reward reward # 更新Q表 new_state tl_agent.get_state() tl_agent.update_q(state, action, reward, new_state) return total_reward4. 效果验证与优化4.1 性能对比指标我们引入三个核心评估指标指标计算公式优化目标平均等待时间总等待时间/车辆数最小化吞吐量单位时间通过车辆数最大化停车次数车辆完全停止次数最小化基准测试结果示例仿真1小时控制策略平均等待(s)吞吐量(veh/h)停车次数固定配时42.76803.2Q-learning25.18921.84.2 可视化改进使用SUMO的gui-settings标签添加实时数据展示gui-settings scheme namereal world/ delay value50/ !-- 放慢仿真速度 -- view viewport zoom100 x0 y0/ vehicle size16/ /view traci-server colorizer vehicle valuewaiting min-colorgreen max-colorred/ /colorizer /traci-server /gui-settings4.3 高级优化技巧状态设计进阶加入相位持续时间、历史流量等时序特征奖励函数调优对紧急刹车施加额外惩罚算法升级改用Deep Q-Network处理更大状态空间# 改进的奖励函数示例 def enhanced_reward(): base_reward -sum_waiting_time() penalty sum(1 for veh_id in traci.vehicle.getIDList() if traci.vehicle.getDecel(veh_id) 3.0) return base_reward - 2 * penalty5. 完整项目部署将所有组件封装为可复用的Python类class SmartTrafficLight: def __init__(self, sumo_cfg, junction_id): self.sumo_cfg sumo_cfg self.junction_id junction_id self.agent QLearningTrafficLight(junction_id) def run(self, episodes50): rewards [] for ep in range(episodes): reward train_episode(self.agent) rewards.append(reward) print(fEpisode {ep1}: reward{reward:.1f}) # 保存训练结果 with open(q_table.pkl, wb) as f: pickle.dump(self.agent.q_table, f) return rewards典型训练曲线显示约经过30次迭代后算法开始收敛Episode 1: reward-1420.7 Episode 10: reward-938.2 Episode 20: reward-612.5 Episode 30: reward-587.1 Episode 40: reward-579.3实际部署时建议先进行离线训练关闭GUI加速再加载预训练模型进行在线微调# 生产环境使用示例 smart_light SmartTrafficLight(crossing.sumocfg, J0) smart_light.agent.load_q_table(pretrained.pkl) # 加载预训练参数 smart_light.run(episodes0) # 纯执行模式

保姆级教程：用Python+SUMO+Q-learning搞定一个红绿灯优化小项目（附完整代码）

相关新闻

从学生实验到实战：手把手教你用Multisim仿真并搭建一个音频AGC电路（附完整BOM清单）

从激光切割机到3D打印机：手把手教你移植GRBL步进电机算法到STM32F103（附源码分析）

别再纠结swap放哪了！聊聊现代Ubuntu服务器分区（SSD+HDD+RAID）的那些‘过时’经验与最佳实践

手机号码定位终极指南：3分钟搭建免费精准查询系统

终极指南：如何用Revelation光影包让Minecraft变身电影级画质

FlexNet Publisher调试日志配置与问题排查指南

AI如何破解数据驱动决策瓶颈：从仪表盘到自然语言对话

Halcon HSmartWindowControl绘制ROI的三大坑，我帮你踩过了（附C#避坑代码）

UniApp App端自定义UserAgent实战：从基础配置到高级应用场景（含plus.navigator详解）

【英语学习笔记】基于“底层逻辑转换”与“去动词化”的英汉互译核心方法论及写作高分公式

终极视频下载解决方案：VideoDownloadHelper 完全指南

2026最新！AI论文写作工具测评：这几款知网都认可

【英语学习笔记】基于“底层逻辑转换”与“去动词化”的英汉互译核心方法论及写作高分公式

终极视频下载解决方案：VideoDownloadHelper 完全指南

2026最新！AI论文写作工具测评：这几款知网都认可

别再手动点关了！用PowerShell永久关闭Windows Defender的保姆级教程（含Server 2016/2019）

别再只换芯片了！BP2832A替换CL1502，你的电感参数算对了吗？

全平台智能资源下载工具：res-downloader 完整使用教程