測定データ​の​解析​と​レポート: Microsoft Excel​の​制約​を​克服​する

概要

測定データの解析や操作を行うソフトウェアを必要としているエンジニアや科学者にとって、Microsoft Excelは、主に幅広く利用できるという理由から、多くの場合事実上の選択肢となっています。Microsoft Excelは、非常に単純なテスト/測定アプリケーションや、設計の対象となった財務の用途に特に向いています。しかし、少ない労力でより多くのことを行うことを企業が強いられている時代においては、効率を最大化する (それによってコストを削減する) 適切なツールを選択することが必要不可欠です。既にコンピュータにインストールされているからといって、Microsoft Excelがあらゆるジョブに適したツールというわけではありません。

NIのDIAdemソフトウェアは、収集またはシミュレーションされたエンジニアリング/科学データの管理、検査、解析、レポート向けとして特別に開発されたソフトウェアです。ほとんどのデータ後処理アプリケーションにおいてExcelの制限を克服する機能を備えており、効率の向上と拡張性をもたらします。

内容

基本構成要素違い: セルチャンネル

Microsoft Excelは、セルを基本的な構成要素として使用しています。  セルを縦横に並べることにより、予算や貸借対照表に最適なアーキテクチャであるスプレッドシートが構成されます。  収集されるデータポイントが少ない場合は、個々のデータポイントの重要性が高いので、1日の間、1時間おきに1つのデータポイントを収集するようなシンプルなシングルポイントデータ収集アプリケーションは、このアーキテクチャに比較的簡単にマッピングできます。  各データポイントはスプレッドシート内のセルとして存在するので、データを操作するにはExcelのセルベースのパラダイムを使用する必要があります。

しかし、ほとんどのデータ収集アプリケーションはそれほど単純ではありません。  一般的なアプリケーションは、数十のデータチャンネルをメガサンプル毎秒 (MS/s) のレートで収集します。  こうしたアプリケーションでは、データの操作ややり取りは信号 (つまりチャンネル) 全体に対して行われます。  Excelでチャンネルを個々のセルの列として操作すると、信号の統一性が失われます。  Excelでは列全体を一度に操作することもできますが、列が長いほど面倒です。  また、列には多くの場合、未処理の数値データだけでなく、名前や単位などの記述情報が含まれています。  そのような場合は列のサブセット (たとえば、範囲A2:A99など) を選択する必要がありますが、オーバーヘッドが生じ、正確性が失われたりエラーが発生したりする可能性があります。

図1では、Excelを使用して、単純ですが一般的なエンジニアリングタスクを実行しています。列に格納されている5つの[温度]チャンネルの平均を求め、結果の平均チャンネルを作成しています。  平均の計算式は、まずセルを対象に定義してから、結果列の全セルにコピーする必要があります。  チャンネルを基本的な構成要素として使用するDIAdemの場合は、図2に示すように、入力チャンネルをチャンネル平均化関数にドラッグアンドドロップするだけで、チャンネルの平均が簡単に求まります。  個々のデータポイントも必要に応じてDIAdemで操作することができます。

図1. Microsoft Excelは、セルを基本要素として使用する。  単純なデータ解析でもセルに対して行い、列のすべてのセル (チャンネル) にそれを繰り返す必要がある

図2. NI DIAdemでは、チャンネルを基本要素として操作する。  データチャンネル全体をドラッグアンドドロップするだけで平均が求められる。個々のデータポイントの操作は不要

ものエンジニアリング/科学解析計算

Excelで財務指向の計算に使用できる数式の数は膨大ですが、少数のエンジニアリング計算や統計計算にアクセスするには、「分析ツール」と呼ばれるオプションのアドインを構成する必要があります。  図3に示すように、「分析ツール」の機能は極端に制限されており、一般的なエンジニアリング計算である高速フーリエ変換 (FFT) に限られています。  一般に、Excelの解析機能ではエンジニアリング/科学アプリケーションの要件に対応しきれないことがよくあります。  拡張性を高めるため、Excelでは堅牢なVisual Basic for Applications (VBA) エンジンと優れたVBA編集環境が用意されており、Excelの組み込み関数ではアプリケーションの目的に不十分である場合に、独自のエンジニアリング計算をゼロから作成することができます。

図3. Microsoft Excelには財務ベースの計算の包括的なセットが用意されており、エンジニアがアプリケーションのニーズに応じて独自のコードを記述可能

DIAdemでは、単純な加算から複雑な行列操作や次数解析に至るまで、何百ものエンジニアリング/科学解析計算がすでに環境に組み込まれています。  DIAdemの解析関数は構成ベースです。図4に示すように、デジタルフィルタなどの複雑な解析を実行する場合でも、プログラミングを行う必要はありません。  また、DIAdemの解析関数では解析結果を完全にプレビューできるため、個々の計算を実行する前に正しいパラメータを使用していることを確認でき、計算ミスを防ぐことができます。

図4. DIAdemには、科学者やエンジニア向けの解析機能が何百も含まれている。  計算はそれぞれ構成ベースであり、結果のチャンネルをプレビューできるため、パラメータを操作して確度を保ち、エラーを減らすことが可能

また、DIAdemにはドメイン固有の計算を独自に作成するためのフレームワークとして、Calculation Managerと呼ばれるものが含まれており、DIAdemの組み込み計算の順序を決めたり独自のカスタム計算を定義したりするための統合型Visual Basicスクリプトインタフェースを備えています。

大量データロード操作

一般的なアプリケーションのデータストリーミング速度は、MS/sのレートに達するかそれ以上です。  1つのデータチャンネルを1 MS/sで収集するアプリケーションでは、1秒間の集録で合計1,000,000のデータポイントが収集されます。そのため、ほんの数分で、数十億ものデータポイントがギガバイトのハードドライブ領域に保存される可能性があります。

Microsoft Excelは、大量のデータを含むデータファイルをロードしようとするとき、すべての単一データポイントをメモリにロードしようとします。  64ビットバージョンのMicrosoft Excel 2010では、アプリケーションのアドレス指定可能なメモリ領域が広いために、このことはそれほど制限にはなりません。しかし、大量のデータをロードする必要があるため、大きなデータセット全体をExcelにロードするのに何分もかかることがよくあります。  さらに、Excelでは、各セルに数値だけでなく、数値の書式、セルの書式、数式、スプレッドシートリンク、インターネットハイパーリンク、コメントなども格納されます。  セルを中心とする柔軟性は、セルレベルでデータが見えることが重要なビジネススプレッドシートには適していますが、何百万個もの値が入ったデータセットでは不要なメモリ負荷を増大させます。 潜在的なメモリの問題を回避するため、Excelでは行と列の最大数に制限が設けられています。  Excel 2007では、ワークシートあたりの行の総数が65,536から1,000,000をわずかに超える数 (正確には220) に増やされ、列の総数が256から16,384 (214) に増やされました。  図5および6では、Excelの行と列の制限をDIAdemの機能と比べています。これはほんの一例ですが、DIAdemでは500,000,000行 (ポイント) を操作できます。 

図5. Excelでは、特定の列に対して100万行をわずかに超えるデータしかロードできない。  このことは科学者やエンジニアにとって制限となる

図6. DIAdemでは極めて大きなデータセットを簡単に扱うことができる。  この図はチャンネル内にある500,000,000 (5億) のデータポイントの例を示している。これはExcelで許容されている最大行数の500倍である

図5に示すように、単一のチャンネルを使用した1 MS/sでの集録レートは、Excelで1秒強の集録によってロードできるデータポイントの数を上回ります。  多くのエンジニアや科学者は、データ後処理ソフトウェアの制限に応じて集録条件を決めざるをえず、集録レートを下げるか、集録を多数のデータファイルにセグメント化することを強いられていると感じており、データの管理や整理に大きな不便をもたらしています。

DIAdemは、測定データが少量であっても大量であっても適切に操作できるように設計されており、合計65,536 (216) のデータチャンネルにわたって、チャンネルごとに最大2,000,000,000 (231) 個のデータポイントを処理できます。  さらに、DIAdemは非常に大きなデータセットを処理するために特別に設計された、選択的ロード、データ削減、レジスタロードの各機能も備えています。 

DIAdemでは、データファイルに含まれるデータチャンネルの一部分を選択的にロードすることができます。対して、Excelではデータファイルから常にすべての列がインポートされます。  10個のチャンネルを含む非常に大きなデータファイルから1個のチャンネルのみをロードする必要がある場合、Excelのようにデータを100%ロードする方法よりも、実際に必要なデータ値の10%のみをロードする方がはるかに高速で効率的です。Excelでは90%がオーバーヘッドになります。 

DIAdemのデータ削減を使用してファイルをロードすると、選択した行範囲からデータがロードされたり、N行ごとに1つの代表値に圧縮されたりします。それに対して、Excelでは常にすべてのデータ行がロードされます。 

DIAdemでファイルをレジスタロードすると、ディスク上の既存のデータファイルがインプレースの仮想メモリとして使用されます。DIAdemは、データファイルからすべての値を一度にロードするのではなく、データ値のブロックにオンデマンドでアクセスする方法をレジスタを通じて登録します。  これにより、図6に示すように、レジスタロードされたチャンネルは読み取り専用になりますが、極めて大きなデータセットでも非常に高速なグラフ処理や検査が可能になります。

柔軟性あるファイルストレージ形式

データを高いストリーミングレートで収集して保存するアプリケーションでは、ストリーミングに対応したファイル形式を使用してデータをディスクに書き込む必要があります。  通常はバイナリファイル形式がよく使用されます。これは、ASCIIファイルのように人間が判読できる形式にするために必要な余分なオーバーヘッドが含まれていないためです。  表1は、標準的なオープンバイナリ形式を含む一般的なファイル形式と、テクニカルデータ管理ストリーミング (TDMS) と呼ばれるNIのソフトウェアを比較したものです。      

 ASCIIバイナリXMLデータベースTDMS
交換可能  
ディスク容量が小さい   
検索可能   
固有属性   
高速ストリーミング   
NIプラットフォームでサポート*

表1. 利用可能なファイル形式オプションは数多くありますが、高速ストリーミングに対応しているのはTDMSなどのバイナリファイル形式のみである。* ツールキットまたはアドオンモジュールが必要になる場合がある

DIAdemは、カスタマイズされたバイナリファイル形式を含む任意のカスタムファイル形式を読み取るのに十分な柔軟性を備えており、データプラグインと呼ばれるモジュール式のコードにより、データファイルの内容を構文解析および解釈する方法を認識します。  データプラグインはまた、特定のデータファイルから解析したデータをDIAdem内部の共通のデータ構造に再フォーマットします。このため、異なるファイル形式からロードされたデータを簡単に比較することができます。  NIでは、最も一般的に使用されている何百ものデータファイル形式に対応した、無料でダウンロード可能なデータプラグインを公開しています。また、独自のレガシーデータファイル用のデータプラグインを作成するためのLabVIEWおよびVBScript用のAPIも公開しています。  このため、DIAdemは拡張性のあるモジュール式となっており、現在、旧来、または将来のどのデータファイル形式も扱うことが可能です。

対照的に、ExcelはASCIIファイルを読み取ることができますが、通常はバイナリファイルからデータを完全にロードすることはできません。  ASCIIファイルを正常にロードした場合でも、Excelではデータファイルのプロパティやチャンネル構造を正しく解釈する機能は限られます。 ほとんど多くの場合において、インポートしたASCIIデータを使用する前に、時間のかかる再フォーマットが必要になります。 

ただし、NIのTDMSファイル形式はこの問題の唯一の例外です。この形式では、Excelは無料のTDM Excelアドインを使用して、TDMSファイルの構造、プロパティ、データを正しい形式でロードします。

測定データをディスクに保存するためのTDMSファイル形式の詳細については、TDMSのホームページを参照してください。

データ管理トレンド解析組み込みツール

時の経過とともに、何百または何千ものデータファイルがディスクに保存、整理されることも稀ではありません。  このようなファイルは、多くの場合、異なる方式やファイル形式で保存されているだけでなく、ローカルマシンまたはネットワーク上のさまざまな場所に格納されています。

Microsoft Excelを使用して複数のデータファイル間でデータのトレンド解析を行う場合は、個々のデータファイルを開き、関連する列をコピーしてマスタ (集約) ファイルに貼り付け、次のデータファイルに移る必要があります。  数百個の独自のデータファイルに渡って存在する類似したデータチャンネルを正確に解析するには、何日間または何週間もの時間が必要となります。

DIAdemでは、これと同じタスクを数秒で達成することが可能です。  DIAdemではデータプラグインを使用することで、これらのさまざまなファイル形式を共通のインポートされた構造にロードし、一様な解析とレポート作成を行うことができます。さらにDIAdemには、My DataFinderという、複数のファイルから所要のデータセットをすばやく見つけ出すことのできる機能が搭載されています (図7)。  My DataFinderは、データファイル内に格納されている記述情報のインデックスを自動的に作成し、それをもとにDIAdem内のファイルを検索します。  DIAdemとDataFinderテクノロジを使用すると、特定の操作者により書き込まれたすべてのデータファイルやすべての失格テストを見つけ出せるだけでなく、すべてのデータファイルの中から、特定のタイプのセンサを使用して収集されたデータチャンネルを検出することもできます。  多くの情報をデータファイルに記述するほど、さまざまなフォルダの中のファイルに保存されたデータや、さまざまなファイル形式で保存されたデータの中から、特定のデータを検索しやすくなります。

図7. このクエリでは、DataFinderは、Jタイプの熱電対を使用して収集され、操作者Jenniferによってディスクに保存されたすべてのデータファイルのデータチャンネルを検索した

データ検査同期

Microsoft Excelでは、ユーザは基本的なチャートやグラフを作成できますが、静的グラフでは、時間の経過とともに測定されたデータを完全に操作して検査することはできません。  たとえば、Excelの組み込みツールを使用して相関測定データやGPSデータを視覚化することは不可能です。 時間ベースの測定のあらゆる側面を詳細に特徴付けるために、DIAdemには強力な視覚化ツールが組み込まれています。このツールは、完全同期が可能な表示領域を備え、ビデオ、3Dモデル、軸座標系、GPSマップ表示、等高線、サウンド再生などとの調整の取れた測定を再生するのに最適です。  これにより、他の情報と同期した測定を再生して、そのコンテキストを詳細に理解することが可能です。  DIAdemの視覚化ツールでは、グラフの特定領域へのズームインや、データ範囲のコピー/削除/補間も簡単に行え、特定ポイントの正確な値をグラフィカルに調べることもできます。  こうした動的なツールを使用すれば、関心領域の特定や、より大きなデータセット内の外れ値の検出も簡単です。

図8. DIAdemを使用して、測定データ、音声データ、GPS座標、ビデオなどの再生を完全に同期させることが可能

What-You-See-Is-What-You-Get (WYSIWYG) レポートテンプレート

エンジニアの多くは、さまざまなデータセットを使用して同じレポートを何度も生成しています。そこでDIAdemは、再利用可能なテンプレートを活用する堅牢なレポートエンジンを備えています。  DIAdemのWYSIWYGレポートテンプレートは、実際のデータ値そのものを保存するのではなく、データへの参照をメモリに保存します。保存された同じレポートテンプレートを使用して別のデータセットのレポートを作成する場合、新しいデータをメモリにロードするだけで、ロードされたレポートテンプレートによって、新規にロードされたデータ値で表示が即座に更新されます。  完成したレポートは高分解能でパブリケーション対応であり、PDF、PowerPoint、HTML、画像などの最も一般的なレポート形式にエクスポートできます。 Excelでは、レポート表示はデータと一緒に一般的なスプレッドシートファイルに保存されるため、複数のデータセットに対して特定のレポート表示を使用することは非常に困難です。 

図9. DIAdemはWYSIWYGレポートエディタを備えている。エクスポートしたレポートはパブリケーション対応であり、見た目は編集時のテンプレートとまったく同じである

対話オートメーション

Excelは、マクロ開発のための強力な環境を備えています。  記録モードを使用すると、時間のかかる評価や計算を自動化するマクロを対話式で記録することが可能です。  DIAdemも同様に、統合型VBScriptエディタ、ユーザダイアログエディタ、スクリプトレコーダを備えており、時間のかかる評価や計算を自動化するスクリプトを対話式で生成します。  スクリプトを使用すると、DIAdem環境全体をカスタマイズして自動化できるため、これまで数日かかっていた反復的なデータワークフロープロセスを数分で実行できます。  これにより、エンジニアや科学者の効率が真の意味で最大化され、未処理の測定データを有用な情報に変換するのに要する時間が大幅に短縮されます。

Excel「無料」ある使用する多額費用かかる

Microsoft Officeは企業の約80%に利用されています[1]。  Excelはほとんどのエンタープライズ向けコンピュータに何の疑問もなくインストールされるため、多くのエンジニアや科学者から「無料の」ソフトウェアと見なされています。  多くの場合、科学者やエンジニアは解析やレポートのニーズがきっかけでExcelの利用を始めています。それはExcelが親しみやすく利用可能であるためです。  表2はExcelの制限をまとめたものですが、これらの制限に遭遇したときに、反復的で時間のかかる手作業の処理を行うか、カスタムのマクロコードの開発や保守に数時間または数週間を費やすことがよくあります。

エンジニア1人の推定人件費 (給与、保険料、備品代などを含む) が年間で合計100,000ドルとすれば、1ライセンスのDIAdemアドバンストと1週間のトレーニングを購入する費用は、Microsoft Excelを上回るわずか2.8週間分の作業の生産性向上で回収できることになります。

このドキュメントで詳しく説明しているように、NI DIAdemでは、Excelの制限が克服され、計測データの管理、解析、レポート生成を行うための効率化ツールが追加で導入されるので、すぐに採算が取れます。  

 ExcelDIAdem
構成要素セルチャンネル
解析オプション豊富な財務計算機能豊富なエンジニアリング計算機能
最大データポイント1,048,576行2,147,483,648行
 16,384列65,536列 (チャンネル)
大きなデータセットのロード常に100%ロード選択的ロード、データ削減、レジスタロード
ファイル形式ASCIIベースあらゆるファイル形式
データ管理 NI DataFinderテクノロジ
視覚化と検査静的グラフとチャート同期可能な、対話式の軸​座標​系、ビデオ、サウンド、マップ、3Dモデル、等高線
レポート作成埋め込み式のレポート表示再利用可能なWYSIWYGレポートテンプレート
オートメーションマクロの記録スクリプトの記録

表2. DIAdemではMicrosoft Excelの制限が克服され、効率が向上する

DIAdem移行に関する詳細

以下のリソースでは、測定データの解析やレポート作成を行うために、Excelから脱却してより強力なツールに移行するメリットについて詳しく説明しています。

 

[1] 「Forrester: Microsoft Officeは競合製品に追われる危険がない - PC World Business Center」http://www.pcworld.com2009年6月4日。2009年12月19日取得。