imm自动发现有问题,监控项不再支持

时间:2023-03-09 21:34:48
imm自动发现有问题,监控项不再支持

IPMI是计算机系统的远程“关闭”或“带外”管理的标准接口。它可以独立于操作系统直接从所谓的“带外”管理卡监视硬件状态。华为的服务器叫做BMC接口,IBM的服务器叫做IMM(Integrated Managemnet Mouule)

IMM主要功能:

System status
查看服务器的健康状况,包括温度、电压和风扇状态等。 Virtual Light Path
查看服务器光通路诊断板上是否有告警。 Event Log
可以查看服务器的日志信息,可以用Save Log as Text File另存日志信息为文本文件。 Vital Product Data
查看服务器的型号序列号及各种微码版本。 Power/Restart
通过IMM控制开关服务器,包括定时开关机功能 Remote Control
远程控制服务器终端,需要添加IBM Virtual Media Key选件来实现此功能,大部分机型标配没有此选件。 PXE Network Boot
设置服务器的PXE启动。 Firmware Update
刷新服务器的UEFI和IMM的微码。 System Settings
设置IMM的时间日期,名字等基本信息。 Login Profiles
为IMM添加除默认之外的其他用户。 Alerts
设置snmp告警等信息。 Serial Port
设置串口信息 Port assignments
定义IMM所使用的端口。 Network Interfaces
设置IMM的网络地址 Network Protocols
配置SNMP,DNS等网络协议 Security
配置SSL、SSH等安全协议 Configuration File
备份和恢复IMM的配置文件 Restore Default Settings
将IMM恢复默认设置 Restrat IMM
重启IMM Log off
退出登录

看监控项历史现实在4天前无法再发现该监控项,然后不再支持,导致这四天就是不收集数据的状态。一块磁盘损坏没有告警

使用该主机上配置的community值及snmp 2 版本去walk自动发现的oid,是获取不到的

这是IBM IMM经常遇到的问题。该类型机器运行超过3个月后,IMM fireware程序就会出现问题,导致SNMP通讯中断,更换完磁盘后,实际上进行了服务器的物理重启,IMM程序恢复正常。

再更换完硬盘后,重启模块,账号USERID 密码PASSW0RD,启动时间有点长,

然后重启之后再walk就有了返回值,

删除掉不支持的,调小自动发现的周期频率,待正常后再恢复长时间间隔的自动发现

snmp的监控就是使用oid去获取监控数据,自动发现也是,走的就是snmpwalk,将一个oid底下的子oid都发现一次,然后供监控项原型使用返回键生成新的监控项。

解决方案:

1、增加SNMP通讯可用性监测,当发生通讯问题时进行告警;同时看看有没有可能在esxi那层对磁盘进行监控;

2、根本的解决方案,联系IBM厂商进行升级,解决IMM程序中断的问题。(该问题在业内已经是公开的问题)