使用OpenTelemetry和Prometheus指标监控SystemLink Enterprise Data Frame服务的运行状况。

请参阅下表,了解由Data Frame服务及其依赖关系发布的指标。您可以部署OpenTelemetry收集器,并将其配置为将所有OpenTelemetry指标显示为Prometheus指标。然后,您可在Grafana等工具中查看这些Prometheus指标。

Data Frame服务

表 53. Data Frame服务的性能指标
KPI? 公制 类型 说明 标签
ni.dataframe.staged_row_data_processor.staging.files.found.count 计数器 在存储中检测到的临时文件数量

ni.dataframe.staged_row_data_processor.staging.files.orphaned.count配合使用,以便了解服务在处理文件时是否落后。

ni.dataframe.staged_row_data_processor.staging.files.orphaned.count 计数器 作为孤立项删除的临时文件数量
ni.dataframe.staged_row_data_processor.staging.files.found.count配合使用,以便了解服务在处理文件时是否落后。理想状态下,该指标为零。下列情况之一可导致值大于X。
  • 服务和MongoDB之间的连接是间歇性的。
  • 客户端使用必须调整的模式写入数据。
ni.dataframe.staged_row_data_processor.staging.files.missing.count 计数器 缺少临时文件的数量
该指标表示以下问题之一。
  • S3存储不一致。
  • 备份和恢复操作破坏了S3和MongoDB的一致性。
  • 当与不为零的ni.dataframe.staged_row_data_processor.staging.files.orphaned.count值配对时,dataframeservice.ingestion.stagedDataProcessor.stagingFileExpiration Helm值设置过低。
ni.dataframe.staged_row_data_processor.claims.lost.count 计数器 处理过程中丢失的声明数量
该指标表示以下问题之一。
  • dataframeservice.ingestion.stagedDataProcessor.tableClaimExpiration Helm值设置过低。
  • 正在写入数据表时,数据表被删除。
ni.dataframe.staged_row_data_processor.claims.with.errors.count 计数器 处理过程中遇到错误的声明数量

将大于0的值视为返回500错误的服务。

ni_dataframe_staged_row_data_processor_phase: [1, 2]
ni.dataframe.staged_row_data_processor.skipped.storage.ids.count 计数器 检测到但未处理的存储ID的数量
ni.dataframe.staged_row_data_processor.failed.to.claim.count 计数器 检测到但未声明的存储ID的数量
ni.dataframe.staged_row_data_processor.claims.processed.count 计数器 已处理的声明数量 ni_dataframe_staged_row_data_processor_phase: [1, 2]
ni.dataframe.staged_row_data_processor.sent.notifications.count 计数器 发送的通知数量
ni.dataframe.row_data_store.s3_stream_pool.blocks.count 计数器 S3 stream pool中可用块的数量
ni.dataframe.row_data_store.s3_stream_pool.allocations.count 计数器 在S3 stream pool中分配的块的数量
ni.dataframe.row_data_store.s3_stream_pool.discards.count 计数器 从S3 stream pool丢弃的缓冲区数量
ni.dataframe.row_data_store.s3_stream_pool.free.size.bytes 计数器 S3 stream pool中已分配但未使用的字节数
ni.dataframe.row_data_store.s3_stream_pool.used.size.bytes 计数器 S3 stream pool当前使用的字节数
ni.dataframe.table_reaper.tables.reaped.count 计数器 已删除的数据表数量

使用该指标监控数据表的清理。

ni_dataframe_table_reaper_reaped_result: [deleted, skipped, failed]
ni.dataframe.tables.appendable.count 量表 可添加的活动表格数量

使用该指标比较可追加的表格数量与表格限值。

ni.dataframe.iceberg_operations.duration 直方图 冰山操作的持续时间。
  • ni_dataframe_iceberg_operations_job_state: [Complete, Error]
  • ni_dataframe_iceberg_operations_operation_type: [Promoting, CompactingData, CompactingManifest, Vacuuming, FinalCompactingData, FinalCompactingManifest, FinalVacuuming]
  • ni_dataframe_iceberg_operations_changes_made: [true, false]

DataFrame服务依赖关系

请参阅DataFrame服务依赖关系的相关文档,了解其他可用的性能指标及其使用方法。
表 54. DataFrame服务依赖关系性能指标的参考
依赖关系在哪里查找信息
ASP.NET关于ASP.NET提供的指标列表,见ASP.NET核心指标ASP.NET运行时指标
Kubernetes关于Kubernetes提供的指标列表,见Kubernetes指标参考kube-state-metrics文档
Dremio关于Dremio提供的指标列表,见JMX可用指标