监控堆栈概览
推荐堆栈
- Prometheus:指标收集
- Grafana:可视化和仪表板
- AlertManager:告警路由和管理
- Node Exporter:系统指标
- Loki:日志聚合(可选)
快速监控设置
步骤 1:启用 Prometheus 指标
步骤 2:安装 Prometheus
步骤 3:安装 Grafana
关键监控指标
节点健康指标
| 指标 | 描述 | 告警阈值 |
|---|---|---|
up | 节点可用性 | = 0 持续 5 分钟 |
stablebft_consensus_height | 当前区块高度 | 5 分钟内无增长 |
stablebft_consensus_validators | 活跃验证者 | 不适用 |
stablebft_consensus_rounds | 共识轮次 | > 3 |
stablebft_consensus_block_interval | 区块时间 | > 10 秒 |
stablebft_p2p_peers | 连接的对等节点 | < 3 |
stablebft_mempool_size | 内存池大小 | > 1500 |
stablebft_mempool_failed_txs | 失败的交易 | > 100/分钟 |
系统指标
| 指标 | 描述 | 告警阈值 |
|---|---|---|
node_cpu_seconds_total | CPU 使用率 | > 80% 持续 5 分钟 |
node_memory_MemAvailable_bytes | 可用内存 | < 10% |
node_filesystem_avail_bytes | 可用磁盘 | < 10% |
node_network_receive_bytes_total | 网络接收 | > 100MB/s |
node_disk_io_time_seconds_total | 磁盘 I/O | > 80% |
node_load15 | 系统负载 | > CPU 核心数 * 2 |
Grafana 仪表板设置
导入 Stable 仪表板
AlertManager 配置
安装 AlertManager
告警规则
健康检查脚本
维护任务
日常维护
监控最佳实践
-
设置冗余监控
- 使用外部监控服务
- 实现跨节点监控
- 设置死人开关告警
-
防止告警疲劳
- 基于基线调整告警阈值
- 使用告警分组和抑制
- 实现升级策略
-
数据保留
- 至少保留 30 天指标
- 归档重要日志
- 定期备份监控配置

