使用OpenTelemetry和Prometheus指标监控SystemLink Enterprise警报服务的运行状况。

2024年6月推出

请参阅下表,了解报警服务及相关依赖关系发出的指标。
备注 您可以部署和配置OpenTelemetry收集器,将所有OpenTelemetry指标显示为Prometheus指标。将指标显示为Prometheus后,即可使用Grafana等工具查看这些指标。

警报服务

表 56. 警报服务的性能指标
KPI? 公制 类型 说明 标签
ni.alarm.alarms.count 计数器 活动警报和非活动警报的数量

使用此指标了解部署正在管理的警报数量。

在下列情况下,警报服务将返回错误且性能会降低。
  • 10,000个或更多活动警报。
  • 共有100,000个警报。

NI建议配置在警报总数接近限值时发送警告提示。例如,当活动警报达到7,500个,警报总数达到75,000个时,用户将收到提示。

NI建议同时配置在达到警报总数限值时发送提示。关于警报限值的更多信息,见相关任务

ni.alarm.alarms.active: ["true", "false"]
ni.alarm.notification_sender.notifications.failed.count 计数器 服务发送失败的通知数量。

如需按错误原因进行筛选,可使用ni.alarm.notification_sender.failure_type标签,其值为serverclient。由于通知服务的问题,带有server标签的指标发送失败。由于客户端错误,带有client标签的指标发送失败。例如,在触发警报的请求中指定无效或已删除的notificationStrategyId

ni.alarm.notification_sender.failure_type: ["client", "server"]
ni.alarm.notification_sender.notifications.sent.count 计数器 服务发送成功的通知数量。

此指标可用于监控服务发送通知的数量。如果服务发送的通知数量超过预期,则客户端可能会滥用服务。

ni.alarm.update_operations.retry.count 计数器 服务重试更新操作的次数。 ni.alarm.update_operations.operation: ["CreateOrUpdate", "Acknowledge"]

警报服务依赖关系

请参阅警报服务依赖关系的相关文档,了解其他可用的性能指标及其使用方法。

表 57. 警报服务依赖关系性能指标的参考
依赖关系 在哪里查找信息
ASP.NET 有关ASP.NET提供的指标列表,请参阅ASP.NET核心指标ASP.NET运行时指标
Kubernetes 关于Kubernetes提供的指标列表,见Kubernetes指标参考kube-state-metrics文档
MongoDB 有关MongoDB的更多信息,请参阅如何监控MongoDB