- cpu、memory、swap、disk
- net_in_speed 入站网速、net_out_speed 出站网速、net_all_speed 双向网速、transfer_in 入站流量、transfer_out 出站流量、transfer_all 双向流量
- offline 离线监控
- load1、load5、load15 负载
- process_count 进程数 目前取线程数占用资源太多,暂时不支持
tcp_conn_count、udp_conn_count 连接数
duration:持续数秒,数秒内采样记录 30% 以上触发阈值才会报警(防数据插针)
min 或 max:
- 流量、网速类数值 为字节(1KB=1024B,1MB = 1024*1024B)
- 内存、硬盘、CPU 以占用百分比计数
离线监控无需设置此项
cover:
- 0 监控所有,通过 ignore 忽略特定服务器
- 1 忽略所有,通过 ignore 监控特定服务器
type
之中transfer_out_cycle
表示周期内的入站流量。大家可以修改为transfer_out_cycle
周期内的出站流量、transfer_all_cycle
周期内双向流量和max
之后的1099511627776
为1TB流量,这里使用的单位应该是B,大家可以自行修改。如:200GB为214748364800
cycle_start
: 是统计周期开始日期(可以是你机器计费周期的开始日期),时间格式为RFC3339,例如北京时间为2022-01-11T08:00:00.00+08:00
cycle_interval
:每隔多少个周期单位(例如,周期单位为天,该值为 7,则代表每隔 7 天统计一次)cycle_unit
统计周期单位,默认hour,可选(hour, day, week, month, year)cover
参考基本规则 👉【0 监控所有,通过 ignore 忽略特定服务器 、1 忽略所有,通过 ignore 监控特定服务器】ignore
内定义要监控的VPS 的ID。
哪吒面板常用报警规则分享
分享哪吒面板常用警报
写在开头
本文只介绍哪吒面板常用报警规则,哪吒面板安装以及通知方式自行寻找!
哪吒面板简介
哪吒监控是一款开源、轻量、易用的服务器监控和运维工具。
一键安装
支持一键脚本安装面板和监控服务,轻松使用;Linux、Windows、MacOS、OpenWRT等主流系统均受支持
实时监控
支持同时监控多个服务器的系统状态,支持监控网页、端口、SSL证书状态;支持故障、流量等状态报警,支持多种通知方式
轻松运维
支持WebSSH,支持流量循环监控,支持设置定时任务、服务器批量执行任务
哪吒面板安装较为复杂,之后会再出一期讲解。
报警规则说明
基本规则
type:可选取一个或多个类型,如在一个规则中选择了多个类型,需要同时满足所有选择的类型才会触发通知(可参考后面的示例)
报警规则分享
会给出具体解释,大家可以根据自己需求自行修改。
名称:离线报警
规则:[{"Type":"offline","Duration":10}]
解释:每10s坚持一次,如果离线会发通知。(10s感觉太短,我改成600,也就是10分钟感觉比较合适)
名称:CPU过高警告
规则: [{"type":"cpu","max":90,"duration":300}]
解释:CPU超过90%发通知警告。300s一周期。(90和300自行修改为自己合适)
名称:内存过高警告
规则:[{"type":"memory","max":90,"duration":300}]
解释:内存占用超过90%发通知警告,300s一周期。(90和300自行修改为自己合适)
名称:硬盘即将爆满
规则:[{"type":"disk","max":80,"duration":43200}]
解释:硬盘占用超过80%发通知警告,12小时一周期。(80和43200自行修改为自己合适)
名称:TCP链接过多异常
规则:[{"type":"tcp_conn_count","max":20,"duration":300}]
解释:TCP链接数超过20个发通知报警,300s为周期。
名称:出站网速过快警告
规则:[{"type":"net_out_speed","max":524288000,"duration":300}]
解释:出站网速超过500M警告发通知,周期为300s。(524288000和300自行修改为自己合适)
名称:周期内流量警告
规则:
[{"type":"transfer_out_cycle","max":1099511627776,"cycle_start":"2022-01-01T00:00:00+08:00","cycle_interval":1,"cycle_unit":"month","cover":1,"ignore":{"3":true,"4":true}}]
解释:ID 为 3 和 4 的服务器(ignore 里面定义),以每月 1 号为统计周期,周期内统计的出站月流量达到 1TB 时报警