归一化数据实现高效的存储和访问

下载PDF

数据表是易于读取，按列存储的数据存储格式，用于百万行级别的数据存储。可使用Data Frame服务API将多种文件格式的数据归一化为一种通用格式。对所有数据使用一种格式，有利于创建可重用的分析例程和可视化效果。

可使用数据表存储波形或时间序列数据。包含时间序列数据的数据表不需要常量时间间隔。

可对数据表执行下列操作。

使用多个提取、转换和加载管道(ETL pipeline)将具有不同数据结构的不同文件类型转换为数据表。
使用统一的分析程序和可视化技术即可与归一化的数据进行交互。
一次API调用，即可向数据表添加多个新行。数据表的行数不限。行的顺序可以是任意的，因为读取数据表时任何列都可以重新排列行。
备注行数据写入数据表的五分钟以内无法被读取。
使用Data Frame服务API读取数据表中的数据，并指定列和行数。
查询数据表元数据，返回匹配查询参数的数据表。找到与测试结果或其他测试元数据相关的数据表变得更为简单。
在数据表中查询具体数据。如果数据的某个特征没有包含在数据表的元数据中，在数据表内进行这类数据的搜索就较为有效。例如，您可以在数据表中查询高于特定阈值的第一个实例。
将查询的表格数据导出为CSV文件，以在电子表格编辑器中查看归一化数据。

在数据表中查询时，可在将数据返回到调用方之前对数据进行降采样。使用下列方法之一抽取数据。降采样可用于可视化大型数据集。当数据的形状比单个数据点更重要时，降采样在分析中也很有用。例如，可使用MAX_MIN降采样方法查找异常值，而无需返回数据表中的所有数据。

表 34. 抽取方法
方法	说明	示例
LOSSY	返回结果集中均匀采样的最大点数。如结果集合中的数据点少于指定的最大值，则抽取返回所有点。此方法可让您更快地查看数据的总体形状，但准确性较低。绘制结果集时，不保证显示数据尖峰。
MAX_MIN	返回所选Y通道按照指定的间隔达到最大和最小值的数据点。该降采样允许用户使用连续线绘制数据。连续线可用于保持数据的形状（包括峰值）。
ENTRY_EXIT	返回与MAX_MIN抽取方法类似的点，不同之处在于它为每个间隔添加了进入点和退出点。入口(ENTRY)是图形中最左侧的点，x的值在某个区间中最小。出口(EXIT)是图形中最右侧的点，x的值在某个区间中最大。

如果每个区间的数据点太少，Null和NaN值可能会以下列方式影响数据的形状。

避免数据形状失真。执行降采样前，滤除NaN值和Null值。

SystemLink Enterprise用户手册