Überwachen Sie den Zustand des SystemLink Enterprise-Alarmdienstes mit Hilfe von OpenTelemetry-Metriken und Prometheus-Metriken.

Eingeführt im Juni 2024

In der folgenden Tabelle sind die vom Alarmdienst und den abhängigen Komponenten des Alarmdienstes ausgegebenen Metriken aufgeführt. Sie können den OpenTelemetry-Kollektor bereitstellen und ihn so konfigurieren, dass alle OpenTelemetry-Metriken als Prometheus-Metriken angezeigt werden. Anschließend können Sie die Prometheus-Metriken in einem Tool wie Grafana anzeigen.

Alarmdienst

Tabelle 49. Leistungsmetriken für den Alarmdienst
KPI? Metrik Typ Beschreibung Beschriftungen
Ja ni.alarm.alarms.count Zähler Die Anzahl der aktiven und inaktiven Alarme

Verwenden Sie diese Metrik, um zu verstehen, wie viele Alarme die Bereitstellung verwaltet.

Der Alarmdienst gibt einen Fehler aus und die Leistung verschlechtert sich unter den folgenden Bedingungen.
  • Es liegen mindestens 10.000 aktive Alarme vor.
  • Es gibt insgesamt 100.000 Alarme.

NI empfiehlt, einen Warnhinweis zu konfigurieren, der angezeigt wird, wenn Sie sich dem Grenzwert für die Gesamtzahl der Alarme nähern. So erhalten Sie z. B. eine Warnung, wenn Sie 7.500 aktive Alarme und 75.000 Alarme insgesamt erreicht haben.

NI empfiehlt, dass Sie auch eine Warnung konfigurieren, die angezeigt wird, wenn der Grenzwert für die Gesamtzahl der Alarme erreicht wurde. Weitere Informationen zu Alarmgrenzwerten finden Sie unter Zugehörige Tasks.

ni.alarm.alarms.active: ["true", "false"]
Ja ni.alarm.notification_sender.notifications.failed.count Zähler Die Anzahl der Benachrichtigungen, die der Dienst nicht gesendet hat

Verwenden Sie zum Filtern nach der Fehlerursache die Beschriftung ni.alarm.notification_sender.failure_type mit den Werten server und client. Metriken mit der Beschriftung server konnten aufgrund von Problemen mit dem Benachrichtigungsdienst nicht gesendet werden. Metriken mit der Beschriftung client konnten aufgrund von Client-Fehlern nicht gesendet werden. Ein Beispiel hierfür ist das Festlegen einer ungültigen oder gelöschten ID für eine Benachrichtigungsstrategie (notificationStrategyId) in einer Anfrage zum Auslösen eines Alarms.

ni.alarm.notification_sender.failure_type: ["client", "server"]
Nein ni.alarm.notification_sender.notifications.sent.count Zähler Die Anzahl der Benachrichtigungen, die der Dienst erfolgreich gesendet hat

Verwenden Sie diese Metrik, um zu überwachen, wie viele Benachrichtigungen der Dienst sendet. Wenn der Dienst mehr Benachrichtigungen sendet als erwartet, wird der Dienst möglicherweise von Clients missbraucht.

Kein
Nein ni.alarm.update_operations.retry.count Zähler Die Anzahl der Aktualisierungen, die der Dienst erneut versucht hat ni.alarm.update_operations.operation: ["CreateOrUpdate", "Acknowledge"]

Abhängige Komponenten des Alarmdienstes

Lesen Sie die Dokumentation für die abhängigen Komponenten des Alarmdienstes, um mehr über verfügbare Leistungsmetriken und deren Funktionsweise zu erfahren.

Tabelle 50. Referenzen für Leistungsmetriken für abhängige Komponenten des Alarmdienstes
Abhängigkeit Wo Sie die Informationen finden
ASP.NET Eine Liste der von ASP.NET bereitgestellten Metriken finden Sie unter ASP.NET-Kernmetriken und ASP.NET-Laufzeitmetriken.
Kubernetes Eine Liste der von Kubernetes bereitgestellten Metriken finden Sie in der Referenz zu Kubernetes-Metriken und kube-state-metrics-Dokumentation.
MongoDB Siehe Überwachen von MongoDB.