警报服务指标
- 更新时间2025-12-02
- 阅读时长3分钟
使用OpenTelemetry和Prometheus指标监控SystemLink Enterprise警报服务的运行状况。
2024年6月推出
请参阅下表,了解报警服务及相关依赖关系发出的指标。
备注 您可以部署和配置OpenTelemetry收集器,将所有OpenTelemetry指标显示为Prometheus指标。将指标显示为Prometheus后,即可使用Grafana等工具查看这些指标。
警报服务
| KPI? | 公制 | 类型 | 说明 | 标签 |
|---|---|---|---|---|
| 是 | ni.alarm.alarms.count | 计数器 | 活动警报和非活动警报的数量 使用此指标了解部署正在管理的警报数量。 在下列情况下,警报服务将返回错误且性能会降低。
NI建议配置在警报总数接近限值时发送警告提示。例如,当活动警报达到7,500个,警报总数达到75,000个时,用户将收到提示。 NI建议同时配置在达到警报总数限值时发送提示。关于警报限值的更多信息,见相关任务。 |
ni.alarm.alarms.active: ["true", "false"] |
| 是 | ni.alarm.notification_sender.notifications.failed.count | 计数器 | 服务发送失败的通知数量。 如需按错误原因进行筛选,可使用ni.alarm.notification_sender.failure_type标签,其值为server和client。由于通知服务的问题,带有server标签的指标发送失败。由于客户端错误,带有client标签的指标发送失败。例如,在触发警报的请求中指定无效或已删除的notificationStrategyId。 |
ni.alarm.notification_sender.failure_type: ["client", "server"] |
| 否 | ni.alarm.notification_sender.notifications.sent.count | 计数器 | 服务发送成功的通知数量。 此指标可用于监控服务发送通知的数量。如果服务发送的通知数量超过预期,则客户端可能会滥用服务。 |
无 |
| 否 | ni.alarm.update_operations.retry.count | 计数器 | 服务重试更新操作的次数。 | ni.alarm.update_operations.operation: ["CreateOrUpdate", "Acknowledge"] |
警报服务依赖关系
请参阅警报服务依赖关系的相关文档,了解其他可用的性能指标及其使用方法。
| 依赖关系 | 在哪里查找信息 |
|---|---|
| ASP.NET | 有关ASP.NET提供的指标列表,请参阅ASP.NET核心指标和ASP.NET运行时指标。 |
| Kubernetes | 关于Kubernetes提供的指标列表,见Kubernetes指标参考和kube-state-metrics文档。 |
| MongoDB | 有关MongoDB的更多信息,请参阅如何监控MongoDB。 |