Datennormalisierung für effizientes Speichern und effizienten Zugriff
- Aktualisiert2025-05-12
- 4 Minute(n) Lesezeit
Datentabellen stehen für ein lese-optimiertes Speicherformat mit spaltenförmiger Datenstruktur, das darauf ausgerichtet ist, Tabellen mit Millionen von Zeilen mit Daten zu speichern. Mit Hilfe der DataFrame-Dienst-API können Sie Daten aus mehreren Dateiformaten in ein gemeinsames Format normalisieren. Indem ein Format für alle Daten verwendet wird, können Sie wiederverwendbare Analyseroutinen und Visualisierungen erzeugen.
Sie können Datentabellen verwenden, um Signalverlaufs- oder Zeitreihendaten zu speichern. In Datentabellen, die Zeitreihendaten enthalten, muss das Zeitintervall nicht konstant sein.
Mit Datentabellen können Sie folgende Aktionen ausführen.
- Sie können mehrere (ETL-)Pipelines zum Extrahieren, Umwandeln und Hochladen verwenden, um verschiedene Dateitypen mit verschiedenen Datenstrukturen in eine Datentabelle zu konvertieren.
- Sie können einheitliche Analyseroutinen und Visualisierungstechniken verwenden, um mit dem einzigen, normalisierten Format zu arbeiten.
- Sie können mit einem einzigen API-Aufruf mehrere neue Zeilen zu einer Datentabelle hinzufügen. Eine Datentabelle kann beliebig viele Zeilen enthalten. Die Zeilen können in beliebiger Reihenfolge angeordnet sein, da jede Spalte die Zeilen beim Lesen der Tabelle neu anordnen kann. Hinweis Zeilen können möglicherweise erst fünf Minuten nach einem Dateneintrag ausgelesen werden.
- Nutzen Sie die DataFrame-Dienst-API, um Daten einer Datentabelle auszulesen und die Spalten sowie die Anzahl der Zeilen festzulegen.
- Erstellen Sie Suchanfragen für Metadaten zur Tabelle, um eine oder mehrere Datentabellen auszugeben, die mit den Parametern der Suchanfrage übereinstimmen. Das kann hilfreich sein, um Tabellen zu finden, die mit einem Testergebnis oder anderen Testmetadaten in Verbindung stehen.
- Erstellen Sie eine Suchanfrage innerhalb der Tabelle, um bestimmte Daten zu finden. Das kann hilfreich sein, wenn Sie in Ihren Daten nach einer bestimmten Eigenschaft suchen, die in den Metadaten der Tabelle nicht enthalten ist. Sie können zum Beispiel in einer Datentabelle eine Suchanfrage erstellen, um die erste Instanz eines Wertes zu finden, der einen bestimmten Grenzwert überschreitet.
- Exportieren Sie abgefragte Tabellendaten als Datei mit kommagegliederten Werten (CSV), um die normalisierten Daten in einem Tabelleneditor anzuzeigen.
Beim Abfragen in einer Tabelle können Sie die Daten vor ihrer Rückgabe an den Aufrufer dezimieren. Verwenden Sie eine der folgenden Methoden, um Daten zu dezimieren. Die Dezimierung kann hilfreich sein, wenn Sie große Datensätze visualisieren. Die Dezimierung kann auch bei der Analyse hilfreich sein, wenn die Form der Daten wichtiger als jeder individuelle Punkt ist. Wenn Sie zum Beispiel nach Ausreißern suchen, können Sie die Dezimierungsmethode MAX_MIN verwenden, damit nicht alle Daten in der Datentabelle zurückgegeben werden müssen.
Methode | Beschreibung | Beispiel |
---|---|---|
LOSSY |
Gibt eine festgelegte maximal zulässige Anzahl an Punkten von einer einheitlichen Stelle des Datensatzes des Ergebnisses aus. Wenn weniger Datenpunkte als der angegebene Höchstwert vorhanden sind, gibt die Dezimierung alle Punkte aus. Mit dieser Methode können Sie die allgemeine Form der Daten schneller erkennen, sie ist dabei aber weniger genau. Spitzenwerte werden bei der Visualisierung des Datensatzes des Ergebnisses möglicherweise nicht angezeigt. |
|
MAX_MIN |
Gibt die Punkte aus, an denen der gewählte Y-Kanal bei jedem Intervall der Daten seinen höchsten und niedrigsten Wert erreicht. Mit dieser Dezimierung können Sie die Daten mit durchgehenden Linien darstellen. Bei Verwendung durchgehender Linien wird die Form der Daten, einschließlich der Spitzenwerte, beibehalten. |
|
ENTRY_EXIT |
Gibt ähnliche Punkte wie MAX_MIN aus, wobei aber Eintritts- und Austrittspunkte für alle Intervalle hinzugefügt werden. Der Eintrittswert ist der Punkt ganz links in einem Diagramm, wo der X-Wert seinen niedrigsten Wert in einem Intervall erreicht. Der Austrittswert ist der Punkt ganz rechts, wo der X-Wert seinen höchsten Wert in einem Intervall erreicht. |
|
Null-Werte und NaN-Werte können die Form der Daten auf folgende Weise zerstören, wenn zu wenig Daten je Intervall vorhanden sind.
- NaN-Werte können als niedrigste oder höchste Werte in der Spalte erscheinen, die diese Werte enthält.
- Null-Werte werden wie Unendlich behandelt und erscheinen als Höchstwert.
Verwandte Inhalte
- Automatische Normalisierung von eingehenden Daten
Erzeugen Sie eine Routine, die eingehende Dateien automatisch in Datentabellen konvertiert.