OpenTelemetryメトリックおよびPrometheusメトリックを使用して、SystemLink Enterpriseアラームサービスの状態を監視します。

2024年6月に導入された機能

以下の表は、アラームサービスおよびアラームサービスの依存項目から生成されるメトリックを示しています。OpenTelemetryコレクタをデプロイし、すべてのOpenTelemetryメトリックをPrometheusメトリックとして公開するようコレクタを構成できます。その後、GrafanaなどのツールでPrometheusメトリックを表示できます。

アラームサービス

表 51. アラームサービスのパフォーマンスメトリック
KPI? メトリック タイプ 説明 ラベル
はい ni.alarm.alarms.count カウンタ アクティブアラームと非アクティブアラームの数。

このメトリックを使用して、デプロイメントが管理しているアラームの数を確認します。

以下の条件下では、アラームサービスはエラーを返し、パフォーマンスが低下します。
  • アクティブアラームが10,000以上ある。
  • アラームが合計100,000ある。

アラームの合計が上限に近づいたときの警告アラートを構成することを推奨します。たとえば、アクティブアラームの数が7,500に達し、アラームの合計数が75,000に達したときに警告を生成するなどです。

また、アラームの合計数が上限に達したときの警告も構成することを推奨します。アラーム上限の詳細については、関連タスクを参照してください。

ni.alarm.alarms.active: ["true", "false"]
はい ni.alarm.notification_sender.notifications.failed.count カウンタ サービスが送信に失敗した通知の数。

エラーの原因別にフィルタ処理するには、ni.alarm.notification_sender.failure_typeラベルにserverclientの値を指定します。serverのラベルが付いたメトリックは、通知サービスに問題があるために送信に失敗したものです。clientのラベルが付いたメトリックは、クライアントエラーのために送信に失敗したものです。たとえば、アラームをトリガするための要求で、無効または削除済みのnotificationStrategyIdを指定したなどです。

ni.alarm.notification_sender.failure_type: ["client", "server"]
いいえ ni.alarm.notification_sender.notifications.sent.count カウンタ サービスが正常に送信した通知の数。

このメトリックを使用して、サービスが送信している通知の数を監視します。サービスが想定以上の数の通知を送信している場合は、クライアントがサービスを正しく使用していない可能性があります。

なし
いいえ ni.alarm.update_operations.retry.count カウンタ サービスが再試行した更新操作の数。 ni.alarm.update_operations.operation: ["CreateOrUpdate", "Acknowledge"]

アラームサービスの依存項目

使用可能なその他のパフォーマンスメトリックとその使用方法については、アラームサービスの依存項目のドキュメントを参照してください。

表 52. アラームサービスの依存項目のパフォーマンスメトリックのリファレンス
依存対象 情報の入手先
ASP.NET ASP.NETが提供するメトリックのリストについては、「ASP.NET Coreのメトリック」および「ASP.NETランタイムのメトリック」を参照してください。
Kubernetes Kubernetesが提供するメトリックのリストについては、『Kubernetes Metrics Reference』および『kube-state-metrics Documentation』を参照してください。
MongoDB MongoDBを監視する方法」を参照してください。