snmptrap/snmptt

时间:2024-02-23 15:00:02

Zabbix Snmp Trap 配置

1. Zabbix Server 操作

1.1 Snmp Trap 安装配置

yum install -y net-snmp net-snmp-utils

vim /usr/lib/systemd/system/snmptrapd.service
ExecStart=/usr/sbin/snmptrapd $OPTIONS -f -O n

vim /etc/snmp/snmptrapd.conf
authCommunity execute public
traphandle default /sbin/snmptthandler

systemctl enable snmptrapd
systemctl start snmptrapd
netstat -unpl |grep 162

1.2 SnmpTT 安装配置

# rpm -ivh http://dl.fedoraproject.org/pub/epel
yum install snmptt perl-Sys-Syslog
vim /etc/snmp/snmptt.ini

date_time_format=  %Y/%m/%d %H:%M:%S
#设置时间格式,读取的SNMPTrap信息之后写入SNMPTrapperFile里的时间格式,也是ZabbixTrapper读取时的时间格式

mode = daemon



~~~
snmptt_conf_files = <<END
/etc/snmp/snmptt.conf   #默认的格式化日志配置文件
/etc/snmp/nbu.conf    # 在这里可以指定其他的格式化trap日志的配置文件
END
~~~


vim /etc/snmp/nbu.conf   #snmptrapd接受设备打过来的日志信息,传输到snmptt进行格式化,
~~~
EVENT general .1.3.6.1.4.1.318.* "UPSTrap" Error   #EVENT general 固定格式   .1.3.6......匹配日志信息中的oid,后面的.*支持统配,将收到的日志添加 "UPSTrap" Error
FORMAT ZBXTRAP $ar $+*       # 格式化数据,都打上ZABTRAP 头,$ar $+*     $ar一般是ip,$+*就是后面的oid信息
EXEC /etc/snmp/xxxx.py "$+*"  #执行指定的py脚本,传入format中匹配的参数,
~~~

xxxx.py中的处理 #在EXEC中指定执行的脚本

def handle(param):     

    param = """127.0.0.1 .1.3.6.1.4.1.318.2.3.10.0:B925f92_nbErrorCond_E7DC65F3 .1.3.6.1.4.1.318.2.3.23.0:E5 80 BC E9 94 99 E8 AF AF  .1.3.6.1.4.1.318.2.3.1.0:9 .1.3.6.1.4.1.318.2.3.11.0:B925f92_nbSNMPEnc156223BD .1.3.6.1.4.1.318.2.3.24.0:E5 85 AC E5 AE 89 E9 BA BB E8 B1 AA E6 94 AF E8  A1 8C 20 28 31 30 2E 34 32 2E 37 30 2E 31 39 39  29  .1.3.6.1.4.1.318.2.3.16.0: .1.3.6.1.4.1.318.2.3.25.0:UPS .1.3.6.1.4.1.318.2.3.17.0:US1503103638 .1.3.6.1.4.1.318.2.3.20.0:Smart-UPS RT 5000 XL .1.3.6.1.4.1.318.2.3.21.0:10.42.70.199 .1.3.6.1.4.1.318.2.3.26.0:E6 B9 96 E5 8C 97 E7 9C 81 E8 8D 86 E5 B7 9E E5  B8 82  .1.3.6.1.4.1.318.2.3.27.0:E6 9D 8E E6 99 93 E7 BB B4  .1.3.6.1.4.1.318.2.3.22.0:B925f92_nbSNMPEnc156223BD_UPS_BASIC_OUTPUT_STATE .1.3.6.1.4.1.318.2.3.28.0:55 50 53 20 E6 93 8D E4 BD 9C E6 A8 A1 E5 BC 8F  .1.3.6.1.4.1.318.2.3.29.0:1 .1.3.6.1.4.1.318.2.3.6.0:1547028468 .1.3.6.1.4.1.318.2.3.7.0:1547028528 .1.3.6.1.4.1.318.2.3.30.0:27 55 50 53 20 E6 93 8D E4 BD 9C E6 A8 A1 E5 BC  8F 27 E7 9A 84 E5 80 BC E8 A1 A8 E6 98 8E E4 B9  8B E5 89 8D 27 E4 B8 A5 E9 87 8D 27 E8 AD A6 E6  8A A5 E6 9B BE E7 BB 8F E5 8F 91 E7 94 9F EF BC  8C E4 BD 86 E8 AF A5 E5 80 BC E7 8E B0 E5 9C A8  E5 B7 B2 E6 81 A2 E5 A4 8D E6 AD A3 E5 B8 B8 E3  80 82
"""
    data = {}
    param_list = param.split(\'.1.3.6.1.4.1.318.2.3.\')[1:]  #使用1.3.6.1.4.1.318.2.3来切割字符串,得到.1.3.6.1.4.1.318.2.3.后面的值 >\'10.0:B925f92_nbErrorCond_E7DC65F3 \',

"""
param.split(\'.1.3.6.1.4.1.318.2.3.\')
[\'127.0.0.1 \',
 \'10.0:B925f92_nbErrorCond_E7DC65F3 \',
 \'23.0:E5 80 BC E9 94 99 E8 AF AF  \',  16位转码  值错误
 \'1.0:9 \',
 \'11.0:B925f92_nbSNMPEnc156223BD \',
 \'24.0:xxxxxxxxxxx \',  *xx支行 (10.xx.xx.xxx)
 \'16.0: \',
 \'25.0:UPS \',
 \'17.0:US1503103638 \',
 \'20.0:Smart-UPS RT 5000 XL \',
 \'21.0:10.42.70.199 \',
 \'26.0:E6 B9 96 E5 8C 97 E7 9C 81 E8 8D 86 E5 B7 9E E5  B8 82  \',  湖北省荆州市
 \'27.0:E6 9D 8E E6 99 93 E7 BB B4  \',
 \'22.0:B925f92_nbSNMPEnc156223BD_UPS_BASIC_OUTPUT_STATE \',
 \'28.0:55 50 53 20 E6 93 8D E4 BD 9C E6 A8 A1 E5 BC 8F  \',   UPS 操作模式
 \'29.0:1 \',
 \'6.0:1547028468 \',
 \'7.0:1547028528 \',
 \'30.0:27 55 50 53 20 E6 93 8D E4 BD 9C E6 A8 A1 E5 BC  8F 27 E7 9A 84 E5 80 BC E8 A1 A8 E6 98 8E E4 B9  8B E5 89 8D 27 E4 B8 A5 E9 87 8D 27 E8 AD A6 E6  8A A5 E6 9B BE E7 BB 8F E5 8F 91 E7 94 9F EF BC  8C E4 BD 86 E8 AF A5 E5 80 BC E7 8E B0 E5 9C A8  E5 B7 B2 E6 81 A2 E5 A4 8D E6 AD A3 E5 B8 B8 E3  80 82\']  UPS 操作模式\'的值表明之前\'严重\'警报曾经发生,但该值现在已恢复正常。

param.split(\'.1.3.6.1.4.1.318.2.3.\')[1:]
将首位的ip去掉,剩下的就是对应的oid信息
\'10.0:B925f92_nbErrorCond_E7DC65F3 \',
 \'23.0:E5 80 BC E9 94 99 E8 AF AF  \',
 \'1.0:9 \',
 \'11.0:B925f92_nbSNMPEnc156223BD \',
 \'24.0:E5 85 AC E5 AE 89 E9.......
"""




    for item in param_list:
        key, value = item.split(\':\')   #用:来切割,得到所有的oid及其对应的值   >>> \'10.0\', \'B925f92_nbErrorCond_E7DC65F3 \'
        key = key.split(\'.\')[0]           #对key在进行.切割,获取统配oid后的第一位值
        data[key] = value               #构造字典,键值对应,以统配后的首位oid值为键
        if key in [\'23\', \'24\', \'26\', \'27\', \'28\', \'30\']: #对key进行筛选,
            value = binascii.a2b_hex(value.replace(\' \', \'\')).decode(\'utf8\')    #snmptt中收到的信息是16进制转码的,需要对16位进行转义,replace将空格去掉,
        else:
            value = value.strip() #对于取值不是16位进制的,直接进行去空操作
        data[key] = value
    host = data[\'24\'].split(\' \')[0].strip() #trap信息中24打头oid指代的就是监控系统中配置的host信息
    ip = data[\'21\'].strip()
    end = int(data[\'7\'])
    if end:
        value = 0
    else:
        value = 1
    if value:   #对告警还是回复进行检查
        key, value = check_alert_key(data) 
    else:
        key, value = check_recover_key(data) 
    start = int(data[\'6\'])
    end = int(data[\'7\'])
    msg = data[\'30\']
    #logging.info(data[\'29\'], data[\'30\'])
    return host, ip, key, value, start, end, msg


if __name__ == \'__main__\':
    if len(sys.argv) > 1:
        arg = sys.argv[1]
        ret = handle(arg)  #接受传入参数,这里是匹配的$+*,就是匹配的所有的oid信息
    
        """
(\'E5\', \'xx.xx.xx.xxx\', \'ups.operation.mode\', 0, 1547028468, 1547028528, "\'UPS 操作模式\'的值表明之前\'严重\'警报曾经发生,但该值现在已恢复正常。")

        """
        sender = ZabbixSender()  #使用了zabbixsender来给server端发送数据
        sender.add(ret[1], ret[2], ret[3])  #指定了ip  key   value
        sender.send()  #发送
        item = \'[{4} - {5}] host: {0} ip: {1} key: {2} value: {3} message: {6}\n\'.format(*ret)
        logging.info(item)

上面有个问题,就是只能对过滤的哪几个key所对应的16进制码进行转码,可以加个处理

        data[key] = value.strip() #对值进行去括号。 
        #if key in [\'23\', \'24\', \'26\', \'27\', \'28\', \'30\']: #对key进行筛选
        不要上面这行了,
        if data[\'key\'] find(\' \') !=-1:#对值进行空值查找
            try: #有些不是16进制的字符串中也含有空格,所以使用try对所有进行转码,
                value = binascii.a2b_hex(value.replace(\' \', \'\')).decode(\'utf8\')    #snmptt中收到的信息是16进制转码的,需要对16位进行转义,replace将空格去掉,
            except Exception as e:  #不能转的的就是剩下的非16进制字符串,直接使用即可,
                value = value.strip()
        else:
            value = value.strip() #对于取值不是16位进制的,直接进行去空操作
        data[key] = value
这样就解决了对于host转码的不完整

之后可以在snmptt.log中找出匹配的告警内容,手动的更改组成一个oid字符串,然后调用脚本传入参数,将数据发送出去,其中的6键对应的是发生时间,7键对应的是恢复时间,用7键的有无判定是发生告警还是恢复,在手动调用的时候7键值为0,就是发生的告警信息,给7键随便赋值,就可以是恢复了。

重启服务

systemctl enable snmptt
systemctl start snmptt

1.3 Zabbix Server 配置

vi zabbix_server.conf
vi zabbix_proxy.conf
SNMPTrapperFile=/var/log/snmptt/snmptt.log
StartSNMPTrapper=1

systemctl retart zabbix-server

# 测试命令
snmptrap -v 2c -c public 127.0.0.1 "" 1.3.6.1.4.1.2345 1.3.6.1.4.1.2345 s "test v2"
发送的 ip 要与主机的 SNMP接口 ip 一致。

snmptrapd与snmptt的工作流程

1. 例如 hds管理页面配置陷阱的ip 端口和团体名,注意华为类型的格式要求多,中发送测试信息给指定ip的162端,发送的消息传给snmptrapd进程,在指定ip的/var/spool/snmptt/下会生成一个临时文件类似于 #snmptt-trap-1612520804624941

1612520804
localhost
UDP: [127.0.0.1]:35742->[127.0.0.1]:162
.1.3.6.1.2.1.1.3.0 16:8:37:45.46
.1.3.6.1.6.3.1.1.4.1.0 .1.3.6.1.4.1.2011.2.15.1.7.1
.1.3.6.1.4.1.2011.2.15.1.7.1.7.0 "Critical"
.1.3.6.1.4.1.2011.2.15.1.7.1.10.0 "Recovery"
.1.3.6.1.4.1.2011.2.15.1.7.1.24.0 "NE_NOT_LOGIN"
.1.3.6.1.4.1.2011.2.15.1.7.1.3.0 "73 6F 75 72 63 65 3D 39 2D 35 20 E4 B8 96 E7 BA AA E4 BA 92 E8 81 94 44 30 39 20 6C 6F 63 61 74 69 6F 6E 3D E7 BD 91 E5 85 83 39 2D 35 20 E4 B8 96 E7 BA AA E4 BA 92 E8 81 94 44 30 39 E6 9C AA E7 99 BB E5 BD 95"
.1.3.6.1.4.1.2011.2.15.1.7.1.5.0 "2020/12/30 - 09:11:05Z"

2. snmptrapd.conf中指定了数据转换的handler 允许的团体名

authCommunity   execute public
traphandle default /sbin/snmptthandler

3. snmptt进程进行数据格式转化

    snmptt.ini中指定了格式化后的输出日志文件的路径(zabbix 自带的snmptrap类型就取这个日志的相关信息)和相应的格式化配置文件
    #日志路径
    log_file = /var/log/snmptt/snmptt.log
    #指定include的其他格式化配置文件,允许自定义
    /etc/snmp/snmptt.conf

4. snmptt.conf 及其他指定的conf文件中指定了数据格式化的形式

    EVENT general .1.3.6.1.4.1.2.6.182.* "LTOTrap" Error
    FORMAT ZBXTRAP $ar $+*
    EXEC /etc/snmp/lto_trap_handle.py "$ar $+*"
    EVENT general .1.3.6.1.4.1.2.6.201.* "IBMTrap" Error
    FORMAT ZBXTRAP $ar $+*
    EVENT general .1.3.6.1.4.1.116.* "HDSTrap" Error
    FORMAT ZBXTRAP $ar $+*
    EXEC /etc/snmp/hds_trap_handle.py "$ar $+*"

关于FORMAT ZBXTRAP $ar $+*的解释:

后续若要针对特定oid处理,通过脚本更新。”ZBXTRAP”必须存在,否则zabbix提取数据失败
后续脚本的入参可以指定这些正则符
$i = 在 .conf 匹配条目的文件中定义的事件 OID(可能是通配符 OID)
$O + 以符号格式陷阱OID
$o + 以数字格式陷印OID
$R,$r + 陷阱主机名
$aR, $ar = IP 地址
$s = 严重性
$T = 正常运行时间:自初始化网络实体以来的时间
$X = 时间陷阱已后台处理(守护进程模式)或当前时间(独立模式)
$x = 日期陷阱已后台处理(守护进程模式)或当前日期(独立模式)
$# = 陷阱中的变量绑定数
$$ = 打印 $
$@ = 自陷阱后台处理(守护进程模式)或当前时间(独立模式)以来的秒数
$n = 展开变量绑定 n (1-n)
$+n = 以变量名称格式展开变量绑定 n (1- n):值
$-n = 以变量名称(变量类型):值的格式展开变量绑定 n (1-n) )
$vn = 展开变量绑定 n (1-n) 的变量名称
$* = 展开所有变量绑定
$=* = 以变量名称格式展开所有变量绑定:值
$-* = 以变量名称格式展开所有变量绑定

5. 在/var/log/snmptt/snmptt.log文件中就会存上格式化好的数据

EXEC 中指定执行的脚本,参数就是格式化之后的一个大字符串,在脚本中可以使用公共的oid进行字符切割找出对应的数据,然后使用sender或者自带的zabbixtrap类型监控项去采集数据

6. 一般在修改完配置项之后需要重启snmptrapd 及 snmptt进程

7. 测试,多个oid信息可以进行拼接

snmptrap -v 2c -c public 127.0.0.1 "" .1.3.6.1.4.1.2011.2.15.1.7.1 .1.3.6.1.4.1.2011.2.15.1.7.1.7.0 s "Critical"  .1.3.6.1.4.1.2011.2.15.1.7.1.10.0  s  "Recovery" .1.3.6.1.4.1.2011.2.15.1.7.1.24.0 s "NE_NOT_LOGIN" .1.3.6.1.4.1.2011.2.15.1.7.1.3.0 s "73 6F 75 72 63 65 3D 39 2D 35 20 E4 B8 96 E7 BA AA E4 BA 92 E8 81 94 44 30 39 20 6C 6F 63 61 74 69 6F 6E 3D E7 BD 91 E5 85 83 39 2D 35 20 E4 B8 96 E7 BA AA E4 BA 92 E8 81 94 44 30 39 E6 9C AA E7 99 BB E5 BD 95" .1.3.6.1.4.1.2011.2.15.1.7.1.5.0 s "2020/12/30 - 09:11:05Z"