华为openUBMC/长江计算 BMC服务器日志分析

发布时间:2026/6/26 1:27:39

华为openUBMC/长江计算 BMC服务器日志分析 BMC为长江计算的BMC产品源自于华为设立的openUBMC电源故障分析先看AppDump/event下的current_event.txt看到目前没有告警System in health state.说明告警已经消除了看下历史告警sel.txt发现历史有多次PSU1的故障告警且每次都是持续70秒左右66 |2026-06-24 00:09:32 |Critical |0x0300000E |Deasserted |The AC/DC input of PSU 1 is lost or out-of-range. 65 |2026-06-24 00:08:20 |Critical |0x0300000D |Asserted |The AC/DC input of PSU 1 is lost or out-of-range. 64 |2026-06-23 00:41:16 |Critical |0x0300000E |Deasserted |The AC/DC input of PSU 1 is lost or out-of-range. 63 |2026-06-23 00:40:03 |Critical |0x0300000D |Asserted |The AC/DC input of PSU 1 is lost or out-of-range. 40 |2026-06-12 04:06:39 |Critical |0x0300000E |Deasserted |The AC/DC input of PSU 1 is lost or out-of-range. 39 |2026-06-12 04:05:27 |Critical |0x0300000D |Asserted |The AC/DC input of PSU 1 is lost or out-of-range. 38 |2026-06-12 00:46:58 |Critical |0x0300000E |Deasserted |The AC/DC input of PSU 1 is lost or out-of-range. 37 |2026-06-12 00:45:44 |Critical |0x0300000D |Asserted |The AC/DC input of PSU 1 is lost or out-of-range.到AppDump\power_mgmt的psu_info.txt看下当前PSU电压一切OKSlot | presence | Manufacturer | Type | SN | Version | Rated Power | InputMode | PartNum | DeviceName | Vin | Vout 1 | present | HUAWEI | PAC2000S12-B1 | xxxxxxxxxxxxxxxxxxxx | DC:111 PFC:111 | 2000 | AC | xxxxxxxx | PSU1 | 225.00 | 12.00 2 | present | HUAWEI | PAC2000S12-B1 | xxxxxxxxxxxxxxxxxxxx | DC:111 PFC:(QB)111 | 2000 | DC | xxxxxxxx | PSU2 | 270.00 | 12.00看下告警时间电源情况AppDump\power_strategy下的power_statistics.csv没办法精准采集到这个时间段这个时候就要结合外部情况来判断了比如问下客户告警临近时间有没有人员在施工或者机柜在倒换测试什么的相邻设备有没有类似告警因为告警提示的是lost or out-of-range并非fault/fail并且每次都是告警70秒后自动恢复不排除也有误告警的可能性存在如果允许可以联系电源厂商进行深度分析或者保险起见直接更换电源模块与电源线CPU高温告警一样先看当前告警先看AppDump/event下的current_event.txt看到目前没有告警System in health state.然后再看sel日志发现cpu2有一个瞬时高温告警ID |Generation Time |Severity |Event Code |Status |Event Description 66 |2026-06-20 22:29:04 |Major |0x00000004 |Deasserted |CPU 2(CpuBoard1 CPU2) temperature is too high and will be underclocked. 65 |2026-06-20 22:29:03 |Major |0x00000003 |Asserted |CPU 2(CpuBoard1 CPU2) temperature is too high and will be underclocked.我们可以再去看下cpu的温度情况AppDump\sensor下的sensor_info.txt目前的温度很正常才40多距离110的阈值差远了sensor id | sensor name | value | unit | status | lnr | lc | lnc | unc | uc | unr | phys | nhys 0x42 | CPU1_Temp | 44.000 | degrees C | ok | na | na | na | 105.000 | 110.000 | na | 2.000 | 2.000 0x4b | CPU2_Temp | 42.000 | degrees C | ok | na | na | na | 105.000 | 110.000 | na | 2.000 | 2.000但是我们发现一个不太正常的数据这个PCIE5网卡实际上是DPU智能网卡温度高达91距离阈值差9度如果某个时刻负荷加大或者周围环境的温度变高比如有人施工打开了机柜门就有可能出发告警0x73 | PCIe5 INIC CPU_Temp | 91.000 | degrees C | ok | na | na | na | 100.000 | na | na | 2.000 | 2.000所以很有可能和这个DPU卡有关了解到这种服务器的业务都是跑在DPU卡上的温度高属于正常且只有一次瞬时告警可以先观察准备好备件并让机房注意环境说明免责声明与版权声明本文内容由个人发布仅用于学习、技术研究与经验交流。文中涉及的软件包括正版及第三方版本仅供测试与学习用途不构成任何形式的分发、破解、商业使用或侵权行为的鼓励。若您需要长期使用或商业部署请前往官方网站购买或获取正版授权。作者不对任何软件的使用、修改、传播及由此产生的后果承担法律责任。读者应自行判断、下载与使用软件并遵守所在地法律法规及相关许可协议。部分内容参考或摘录自公开资料、官方文档或其他技术文章均已尽可能注明原作者及来源链接。若原作者或版权方认为本文存在不当引用或侵权内容请联系作者处理作者将在核实后及时修改或删除相关内容。知识共享许可声明除特别说明外本文中的原创文字、图片、图表及资料均依据CC BY-NC-SA 4.0署名非商业性使用相同方式共享许可协议发布。您可以在遵守本协议的前提下复制、转载和分享本文内容对本文内容进行修改、改编和二次创作将本文内容用于个人学习、研究和非商业用途。同时必须满足以下条件保留原作者署名及原文链接明确标注内容来源不得将本文及其衍生作品用于任何商业用途基于本文进行修改、改编或再创作的作品必须继续采用相同协议进行发布。特别声明未经作者书面授权禁止以下行为将本文原创内容用于商业培训、付费课程、付费社群、收费咨询等商业活动将本文原创内容转载至以盈利为目的的网站、平台、出版物或知识付费平台将本文原创内容批量采集、镜像、聚合或作为数据库内容进行商业运营将本文原创内容用于人工智能模型训练、知识库构建、数据集整理或其他商业化用途删除、修改或隐藏原作者署名、原文链接及版权声明。对于违反上述声明的行为作者保留依法追究相关责任的权利。AI 辅助生成声明本文部分内容在撰写、整理、润色或结构优化过程中使用了 AI 工具进行辅助生成。AI 生成内容仅作为写作辅助参考最终内容已由作者进行人工审阅、修改、校对与确认。本文观点、技术步骤、命令示例及相关说明均以作者最终发布版本为准。读者在参考本文内容进行实际操作前应结合自身环境进行验证作者不因 AI 辅助生成内容可能存在的遗漏、错误或不适用情况承担额外责任。

相关新闻