Au-delà de Microsoft Excel pour l'analyse des données de mesure et la génération de rapports

Aperçu

Du fait de sa très grande disponibilité, Microsoft Excel est bien souvent le choix de facto des ingénieurs et scientifiques qui ont besoin d'un logiciel pour l'analyse et la manipulation des données de mesure. Microsoft Excel se prête très bien aux applications de test et mesure d'une grande simplicité ainsi qu'aux usages financiers pour lesquels il a été conçu ; toutefois, dans un domaine où les entreprises se voient contraintes de faire toujours plus avec moins de moyens, il est impératif de choisir les outils appropriés pour optimiser l'efficacité (réduisant par là-même les coûts). Le simple fait que Microsoft Excel soit déjà installé sur votre ordinateur ne suffit pas à en faire le bon outil quelle que soit la tâche. Le logiciel DIAdem de National Instruments (qui a été spécialement conçu pour la gestion, l'inspection, l'analyse et la génération de rapports de données techniques et scientifiques acquises ou simulées) allie gains d'efficacité et évolutivité avec des caractéristiques qui vont bien au-delà des limites d'Excel dans la plupart des applications de post-traitement de données.

Contenu

Différences entre les éléments de base : cellules et voies

L'élément de base utilisé par Microsoft Excel est la cellule. Les cellules forment des lignes et des colonnes pour constituer une feuille de calculs, à savoir une architecture idéale pour les budgets et les bilans comptables. Les applications d'acquisition de données simples point par point, par exemple celles qui recueillent un seul et unique point de donnée par heure sur une journée, sont fréquemment liées à cette architecture car moins il y a de points de données collectés, et plus un point de donnée individuel a d'importance. Chaque point de donnée existe sous la forme d'une cellule dans une feuille de calculs et doit être manipulé par le biais d'un paradigme qui utilise les cellules d'Excel.

La plupart des applications d'acquisition de données, cependant, ne sont pas aussi basiques. Les applications qui recueillent des dizaines de voies de données à des taux de l'ordre du méga-échantillon par seconde (Méch./s) sont monnaies courantes. Dans ces applications, toute manipulation de données et toute interaction avec elles s'effectuent sur l'ensemble d'un signal ou d'une voie. Lorsque l'on manipule des voies dans Excel comme des colonnes de cellules individuelles, l'unité du signal est perdue. Même si Excel permet de manipuler plusieurs colonnes entières à la fois, plus les colonnes sont longues et moins la tâche est aisée. Par ailleurs, les colonnes contiennent souvent des informations descriptives, telles qu'un nom ou une unité, en plus de la donnée numérique brute. Dans ce cas, il faut sélectionner un sous-ensemble de la colonne (par exemple, les cellules allant de A2 à A99), ce qui génère une perte de temps et un risque potentiel d'inexactitudes ou d'erreurs.

Dans la Figure n°1, Excel est utilisé pour effectuer une tâche simple mais courante en ingénierie : moyenner cinq voies [température] stockées dans des colonnes afin d'obtenir une voie résultante appelée Moyenne. Le calcul (moyennage) doit tout d'abord être effectué avec une cellule, puis copié (ou rempli) dans toutes les cellules de la colonne Moyenne. En utilisant DIAdem, pour qui l'élément de base est la voie, moyenner des voies est aussi simple que glisser-déposer des voies d'entrée dans la fonction Average Channels, comme le montre la Figure n°2. Si nécessaire, les points de données individuels peuvent toujours être manipulés dans DIAdem.

Figure n°1. L'élément de base utilisé par Microsoft Excel est la cellule. Même l'analyse de données la plus simple doit être appliquée dans un premier temps à une cellule, puis répétée à toutes les autres de la colonne (voie).

Figure n°2. La voie est l'élément de base de NI DIAdem. Le moyennage est aussi simple que de glisser-déposer des voies de données toutes entières au lieu d'avoir à manipuler des points de données individuels.

Des centaines de calculs d'analyses techniques et scientifiques

S'il existe une multitude de formules pour les calculs dédiés à la finance dans Excel, il faut configurer un utilitaire optionnel appelé Analysis Toolpak pour accéder à quelques calculs techniques et de statistiques. Les fonctions de l'Analysis Toolpak sont extrêmement limitées, comme le montre la Figure n°3 avec la transformée de Fourier rapide (FFT) qui est un calcul technique très courant. En règle générale, les capacités d'analyse d'Excel ne répondent pas aux exigences des applications scientifiques ou techniques. Pour accroître les possibilités, Excel offre un moteur VBA (Visual Basic for Applications) robuste et un excellent environnement d'édition VBA qui vous permettent d'écrire vos propres calculs techniques de toute pièce lorsque les fonctions intégrées d'Excel ne suffisent pas à votre application.

Figure n°3. Microsoft Excel offre un vaste ensemble de calculs spécifiques à la finance et permet aux ingénieurs d'écrire leur propre code pour satisfaire les besoins de leur application.

Quant à DIAdem, des centaines de calculs d'analyses techniques et scientifiques - de la simple addition jusqu'à la manipulation de matrices complexes et l'analyse d'ordre - ont été intégrés à l'environnement. Étant donné que les fonctions d'analyse dans DIAdem sont configuratives, l'exécution d'analyses aussi complexes soient-elles, comme le filtrage numérique (Digital Filtering), ne requiert aucune programmation (voir la Figure n°4). De plus, les fonctions d'analyse de DIAdem offrent un aperçu complet des résultats d'analyse, ce qui permet d'éviter les calculs erronés en vous assurant que vous utilisez les bons paramètres avant d'exécuter chaque calcul.

Figure n°4. DIAdem propose des centaines de fonctions d'analyse spécifiques pour les scientifiques et les ingénieurs. Chaque calcul est configuratif et offre un aperçu des voies résultantes, ce qui vous permet d'interagir avec les paramètres pour garantir la précision et réduire les erreurs.

DIAdem offre également un framework permettant de créer des calculs spécifiques à votre domaine appelé Calculation Manager, et il intègre également une interface de script Visual Basic pour séquencer les calculs intégrés dans le logiciel ou pour définir vos propres calculs personnalisés.

Chargement et manipulation de vastes ensembles de données

Les vitesses de streaming de données des applications courantes atteignent ou dépassent des taux en Méch./s. Dans une application qui recueille une seule voie de données à 1 Méch./s, un total de 1 000 000 de points de données sera collecté au cours d'une acquisition d'une seconde. En l'espace de quelques minutes, des milliards de points de données peuvent être sauvegardés sur des gigaoctets de disque dur.

Lorsque Microsoft Excel tente de charger un fichier contenant une grande quantité de données, il s'efforce de charger chaque point de donnée en mémoire. Avec la sortie de la version 64 bits de Microsoft Excel 2010, cela s'avère moins problématique, dans la mesure où l'application dispose d'un espace mémoire adressable plus important. Cependant, le chargement de la totalité d'un vaste ensemble de données dans Excel prend souvent de longues minutes en fonction du volume de données à charger. Par ailleurs, Excel ne se contente pas de sauvegarder les valeurs numériques dans chaque cellule, il enregistre aussi le formatage numérique, le formatage de la cellule, les formules, les liens vers la feuille de calculs, les liens hypertextes, et les commentaires. Cette souplesse de la cellule convient parfaitement aux feuilles de calculs dans le domaine financier où la visibilité au niveau de la cellule est essentielle, mais elle entraîne une perte de temps inutile liée à la mémoire pour les ensembles de données comportant des millions de valeurs. Pour éviter tout problème potentiel lié à la mémoire, Excel limite le nombre maximum de lignes et de colonnes. L'introduction d'Excel 2007 a augmenté le nombre total de lignes par feuille de 65 536 à un peu plus de 1 000 000 (220, pour être précis) et le nombre total de colonnes de 256 à 16 384 (214). En vous reportant aux Figures n°5 et n°6, comparez les limites d'Excel en termes de nombre de lignes et de colonnes avec la capacité de DIAdem à manipuler 500 000 000 lignes (points). 

Figure n°5. Excel ne peut charger qu'un peu plus d'1 million de lignes de données pour une colonne. C'est un obstacle pour les scientifiques et les ingénieurs.

Figure n°6. DIAdem peut facilement traiter des ensembles de données extrêmement volumineux. Cette image illustre un exemple de 500 000 000 (un demi-milliard) points de données dans une voie - à savoir 500 fois le nombre maximum de lignes autorisé par Excel.

Comme le montre la Figure n°5, une fréquence d'acquisition d'1 Méch./s avec une seule voie suffirait à dépasser le nombre de points de données qu'Excel est capable de charger en à peine plus d'une seconde d'acquisition. De nombreux ingénieurs et scientifiques se trouvent contraints d'accepter que les limites de leur logiciel de post-traitement de données dictent les termes de leur acquisition, et soit réduisent les fréquences d'acquisition, soit segmentent les acquisitions sur plusieurs fichiers de données, transformant la gestion et l'organisation des données en véritable cauchemar.

DIAdem a été conçu pour manipuler des ensembles de données de mesure qu'ils soient volumineux ou non, et peut traiter jusqu'à 2 000 000 000 points de données (231) par voie sur un total de 65 536 (216) voies de données. De plus, DIAdem offre des fonctionnalités de chargement sélectif et de réduction des données spécifiquement conçues pour travailler avec des ensembles de données extrêmement volumineux.

DIAdem est capable de charger de manière sélective un sous-ensemble de voies de données contenu dans un fichier, tandis qu'Excel importe toujours la totalité des colonnes d'un fichier de données. Si vous ne devez charger qu'une voie d'un fichier de données très volumineux qui en contient 10, ne charger que les 10 % de valeurs dont vous avez réellement besoin est plus rapide et plus efficace que la méthode d'Excel qui consiste à charger 100 % des données alors que 90 % de la tâche est une pure perte de temps.

Lorsque les fichiers sont chargés avec réduction des données, DIAdem charge les données provenant d'une sélection de lignes et/ou condense toutes les N lignes en une valeur représentative, alors qu'Excel charge toujours toutes les lignes de données.

Lorsque les fichiers sont chargés, DIAdem utilise le fichier de données existant sur disque comme mémoire virtuelle en place. DIAdem ne charge pas immédiatement toutes les valeurs de ce fichier de données mais enregistre à la place la façon d'accéder aux blocs de valeurs de données à la demande. En conséquence, les voies enregistrées sont en lecture seule, mais cela permet une représentation graphique et une inspection très rapides des ensembles de données extrêmement volumineux, comme le montre la Figure n°6.

Consultez un article d'utilisateur sur la façon dont DIAdem traite des quantités importantes de données pour prévoir et surveiller une activité sismique.

Souplesse du format de stockage des fichiers

Les applications qui collectent et enregistrent des données à des vitesses de streaming élevées doivent écrire les données sur disque en utilisant un format de fichier compatible avec le transfert en continu. Ce sont les formats de fichiers binaires qui sont utilisés majoritairement, car ils n'ont pas besoin de temps supplémentaire pour rendre un fichier lisible par une personne contrairement aux fichiers ASCII. Le Tableau n°1 compare les formats de fichiers les plus courants, notamment le format binaire ouvert standard pour les logiciels de National Instruments appelé Technical Data Management Streaming (TDMS).      

Tableau N° 1. Il existe de nombreuses options de formats de fichiers, mais les fichiers binaires comme le TDMS sont les seuls à être compatibles avec le streaming de données haute vitesse. *Susceptible de nécessiter un toolkit ou un module complémentaire.

DIAdem est suffisamment souple pour lire n'importe quel format de fichier personnalisé, y compris les formats binaires personnalisés, grâce à des fragments modulaires de code appelés DataPlugins qui savent analyser et interpréter le contenu d'un fichier de données. Les DataPlugins reformatent également les données analysées provenant d'un fichier de données spécifique en une structure de données commune au sein de DIAdem qui facilite la comparaison des données chargées à partir de différents formats de fichiers. National Instruments a publié des DataPlugins à télécharger gratuitement pour des centaines de formats de fichiers les plus couramment utilisés, et il existe des API publiées pour LabVIEW et VBScript permettant de créer des DataPlugins pour vos propres fichiers existants. Cela permet à DIAdem d'être suffisamment modulaire et évolutif pour traiter tous les choix de formats de fichiers, qu'ils soient anciens, actuels ou à venir.

Par opposition, si Excel peut lire des fichiers ASCII, il est généralement incapable de charger des données à partir de fichiers binaires. Même lorsqu'Excel parvient à charger un fichier ASCII, sa capacité à interpréter correctement les propriétés et la structure des voies du fichier de données reste limitée. Trop souvent, un long reformatage des données ASCII importées est nécessaire avant leur exploitation.

Exception à cette règle, le format de fichier TDMS de National Instruments est chargé par Excel avec un formatage correct de la structure, des propriétés et des données grâce à l'utilitaire gratuit TDM Excel Add-In.

Visitez la page d'accueil dédiée au format TDMS pour en savoir plus sur ce format de fichier permettant d'enregistrer des données de mesure sur disque.

Outils intégrés pour la gestion des données et le calcul des tendances

Au fil du temps, il est courant de stocker et de tenter d'organiser des centaines voire des milliers de fichiers de données sur disque. Ces fichiers sont souvent stockés de différentes façons et dans différents formats, ils peuvent même être enregistrés dans des emplacements divers et variés sur une machine locale ou un réseau.

Si vous souhaitez identifier les tendances des données sur plusieurs fichiers en utilisant Microsoft Excel, vous allez devoir ouvrir chaque fichier de données de manière individuelle, copier les colonnes pertinentes et les coller dans un fichier principal, puis passer au fichier suivant. Identifier précisément les tendances de voies de données similaires dans des centaines de fichiers de données prendrait des jours, voire des semaines.

DIAdem peut accomplir cette même tâche en l'espace de quelques secondes. Avec les DataPlugins, DIAdem peut charger ces différents formats de fichiers sur une structure importée commune pour une analyse et une génération de rapport homogènes. En outre, DIAdem installe une technologie appelée My DataFinder qui vous aide à localiser et isoler précisément les ensembles de données que vous recherchez, même s'ils sont localisés sur des fichiers différents (voir Figure n°7). My DataFinder crée automatiquement un index des informations descriptives contenues dans les fichiers de données, ce qui vous permet de rechercher et de récupérer rapidement vos données dans DIAdem. Avec DIAdem et la technologie DataFinder, vous pouvez rapidement retrouver tous les fichiers de données écrits par un opérateur en particulier, localiser tous les tests ayant échoués, ou même identifier n'importe quelle voie de données dans tous les fichiers qui ont été stockées avec un type de capteur spécifique. Plus vous fournissez d'informations dans vos fichiers de données, et plus il y a de possibilités disponibles lorsque vous recherchez des données spécifiques stockées sur plusieurs fichiers dans divers dossiers et/ou formats.

Figure n°7. Dans cette recherche, DataFinder a localisé les voies de données qui se trouvaient dans tous les fichiers, collectées avec un thermocouple de type J et stockées par Jennifer, nom de l'opérateur.

Visionnez une présentation vidéo sur DIAdem et NI DataFinder pour la gestion, l'analyse et la génération de rapport des données.

Inspection et synchronisation des données

Microsoft Excel permet aux utilisateurs de créer des graphes et des graphiques élémentaires, mais les graphes statiques ne vous permettent pas d'inspecter et d'interagir en toute liberté avec les données qui ont été mesurées au fil du temps. Par exemple, il est impossible de visualiser des données de mesure corrélées et des données GPS en utilisant les outils intégrés dans Excel. Afin de caractériser tous les aspects des mesures temporelles, DIAdem intègre un outil de visualisation performant qui propose des zones d'affichage parfaitement synchronisables, idéales pour lire les mesures coordonnées avec des vidéos, des modèles 3D, des systèmes d'axes, des affichages de carte GPS, les contours, les lectures sonores, etc. Cela vous permet de relire une mesure synchronisée avec d'autres informations permettant de comprendre parfaitement son contexte. Les outils de visualisation de DIAdem vous permettent de zoomer aisément sur une région spécifique d'un graphe, de copier, de supprimer ou d'interpoler des gammes de données, et d'examiner les valeurs exactes de points spécifiques de manière graphique. Cet outil dynamique facilite l'identification de régions d'intérêt ou la localisation de points aberrants au sein de vastes ensembles de données.

Figure n°8. Avec DIAdem, vous pouvez parfaitement synchroniser la lecture de données de mesure, de données sonores, de coordonnées GPS, de vidéos, etc.

Modèles de rapport WYSIWYG (What-You-See-Is-What-You-Get)

DIAdem intègre un moteur de génération de rapports robuste qui exploite des modèles réutilisables car de nombreux ingénieurs génèrent les mêmes rapports de façon répétée avec des ensembles de données différents. Les modèles de rapport WYSIWYG (ou "tel affichage, tel résultat" en français) dans DIAdem stockent des références aux données en mémoire au lieu d'enregistrer les valeurs des données elles-mêmes. Pour créer des rapports sur des ensembles de données différents en utilisant le même modèle enregistré, il vous suffit de charger les nouvelles données en mémoire et le modèle de rapport chargé va immédiatement mettre à jour son affichage avec ces nouvelles valeurs de données. Vous pouvez ensuite exporter des rapports haute résolution prêts à être publiés aux formats les plus courants : PDF, PowerPoint, HTML, image, etc. Dans Excel, l'affichage des rapports est enregistré avec les données dans un fichier tableur commun, ce qui rend beaucoup moins aisée l'utilisation d'un affichage de rapport particulier pour plusieurs ensembles de données.

Figure n°9. DIAdem intègre un éditeur de rapports WYSIWYG : c'est un modèle qui détermine l'apparence des rapports exportés prêts à être publiés.

Automatisation interactive

Excel offre un environnement performant pour le développement de macros. Grâce au mode enregistrement, il est possible d'enregistrer de manière interactive des macros qui automatisent de longues évaluations ou de longs calculs. De même, DIAdem propose un éditeur VBScript intégré, un éditeur de boîte de dialogue utilisateur, et un enregistreur de script afin de générer de manière interactive des scripts qui automatisent de longues évaluations ou de longs calculs. Grâce aux scripts, l'environnement de DIAdem peut être entièrement personnalisé et automatisé. De ce fait, les processus de flux de production des données répétitifs qui prenaient des jours entiers peuvent être effectués en l'espace de quelques minutes. L'efficacité des ingénieurs et scientifiques s'en trouve véritablement optimisée et ces derniers peuvent plus rapidement transformer les données de mesure brutes en informations utilisables.

Excel est "gratuit", mais son utilisation est coûteuse

Microsoft Office est utilisé par environ 80% des entreprises[1]. De nombreux ingénieurs et scientifiques voient en Excel un logiciel gratuit car il est installé par défaut sur la plupart des ordinateurs de leur société. Fréquemment, les ingénieurs et scientifiques commencent à utiliser Excel pour leurs besoins en termes d'analyse et de génération de rapports car il est familier et disponible. Lorsqu'ils sont confrontés aux limites d'Excel résumées dans le Tableau n°2, soit ils s'accommodent des traitements manuels souvent longs et répétitifs, soit ils passent des heures, voire des semaines, à développer et maintenir du code de macro spécialisé.

Si vous estimez que le coût d'un ingénieur (englobant le salaire, l'assurance, l'équipement dont il dispose, etc.) s'élève environ à 100 000 dollars par an, le prix d'achat d'une licence DIAdem Advanced et d'une semaine de formation serait amorti en à peine 2,8 semaines de travail, en prenant en compte les gains de productivité réalisés par rapport à Microsoft Excel.

Comme le montre ce document, NI DIAdem devient vite rentable puisqu'il surmonte les obstacles d'Excel et introduit des outils supplémentaires pour l'efficacité dédiés à la gestion, à l'analyse et à la génération de rapports des données de mesure.

Tableau 2. DIAdem va augmenter votre efficacité en allant bien au-delà des limites de Microsoft Excel.

En savoir plus et passer à DIAdem dès aujourd'hui

Utilisez les ressources ci-dessous pour obtenir de plus amples information afin d'aller au-delà d'Excel en adoptant des outils plus performants pour l'analyse et la génération de rapports sur les données de mesure.

 

[1] "Forrester: Microsoft Office in No Danger From Competitors - PC World Business Center." http://www.pcworld.com. 2009-06-04. Retrieved 2009-12-19.