DataFrame服务指标
- 更新时间2025-12-02
- 阅读时长7分钟
使用OpenTelemetry和Prometheus指标监控SystemLink Enterprise DataFrame服务的运行状况。
请参阅下表,了解DataFrame服务及相关依赖关系发出的指标。
备注 您可以部署和配置OpenTelemetry收集器,将所有OpenTelemetry指标显示为Prometheus指标。将指标显示为Prometheus后,即可使用Grafana等工具查看这些指标。
对于包含ni.dataframe.row_data_store.{object_storage}_stream_pool的指标,服务会将{object_storage}替换为s3或azure。具体替换取决于服务所连接的对象存储提供程序。该服务在输出指标时会自动完成替换。
DataFrame服务
| KPI? | 公制 | 类型 | 说明 | 标签 |
|---|---|---|---|---|
| 是 | ni.dataframe.staged_row_data_processor.staging.files.found.count | 计数器 | 在存储中找到的临时文件数量。 与ni.dataframe.staged_row_data_processor.staging.files.orphaned.count配合使用,以便了解服务在处理文件时是否落后。 |
无 |
| 是 | ni.dataframe.staged_row_data_processor.staging.files.orphaned.count | 计数器 | 作为孤立项删除的临时文件数量。 与ni.dataframe.staged_row_data_processor.staging.files.found.count配合使用,以便了解服务在处理文件时是否落后。理想状态下,该指标为零。下列情况之一可导致值大于X。
|
无 |
| 是 | ni.dataframe.staged_row_data_processor.staging.files.missing.count | 计数器 | 缺少临时文件的数量。 该指标表示以下问题之一。
|
无 |
| 是 | ni.dataframe.staged_row_data_processor.claims.lost.count | 计数器 | 处理过程中丢失的声明数量。 该指标表示以下问题之一。
|
无 |
| 是 | ni.dataframe.staged_row_data_processor.claims.with.errors.count | 计数器 | 处理过程中遇到错误的声明数量。 将大于0的值视为返回500错误的服务。 |
ni_dataframe_staged_row_data_processor_phase: [1, 2] |
| 否 | ni.dataframe.staged_row_data_processor.skipped.storage.ids.count | 计数器 | 检测到但未处理的存储ID的数量。 | 无 |
| 否 | ni.dataframe.staged_row_data_processor.failed.to.claim.count | 计数器 | 检测到但未声明的存储ID的数量。 | 无 |
| 否 | ni.dataframe.staged_row_data_processor.claims.processed.count | 计数器 | 已处理的声明数量。 | ni_dataframe_staged_row_data_processor_phase: [1, 2] |
| 否 | ni.dataframe.staged_row_data_processor.sent.notifications.count | 计数器 | 发送的通知数量。 | 无 |
| 否 | ni.dataframe.row_data_store.{object_storage}_stream_pool.blocks.count | 计数器 | 对象存储stream pool中可用块的数量。 | 无 |
| 否 | ni.dataframe.row_data_store.{object_storage}_stream_pool.allocations.count | 计数器 | 对象存储stream pool中已分配块的数量。 | 无 |
| 否 | ni.dataframe.row_data_store.{object_storage}_stream_pool.discards.count | 计数器 | 对象存储stream pool中丢弃的缓冲区数量。 | 无 |
| 否 | ni.dataframe.row_data_store.{object_storage}_stream_pool.free.size.bytes | 计数器 | 对象存储stream pool中已分配但未使用的字节数量。 | 无 |
| 否 | ni.dataframe.row_data_store.{object_storage}_stream_pool.used.size.bytes | 计数器 | 对象存储stream pool中当前正在使用的字节数量。 | 无 |
| 是 | ni.dataframe.table_reaper.tables.reaped.count | 计数器 | 已删除的数据表数量。 使用该指标监控数据表的清理。 |
ni_dataframe_table_reaper_reaped_result: [deleted, skipped, failed] |
| 是 | ni.dataframe.tables.appendable.count | 量表 | 可添加的活动表格数量。 使用该指标比较可添加表格的数量和可添加表格的限制。 |
无 |
| 是 | ni.dataframe.iceberg_operations.duration | 直方图 | 冰山操作的持续时间。 |
|
DataFrame服务依赖关系
请参阅DataFrame服务依赖关系的相关文档,了解其他可用的性能指标及其使用方法。
| 依赖关系 | 在哪里查找信息 |
|---|---|
| ASP.NET | 关于ASP.NET的指标列表,请见ASP.NET核心指标和ASP.NET运行时指标。 |
| Kubernetes | 关于Kubernetes的指标列表,请见Kubernetes指标参考、cAdvisor指标和kube-state-metrics文档。 |
| Dremio | 关于Dremio的指标列表,请见可用JMX统计。 |
相关内容
- OpenTelemetry网站
- Prometheus网站
- cAdvisor指标
- 警报服务指标
使用OpenTelemetry和Prometheus指标监控SystemLink Enterprise警报服务的运行状况。
- ASP.NET核心指标
- ASP.NET运行时指标
- Kubernetes指标参考
- kube-state-metrics文档
- 可用JMX统计