「ブラックボックス」のフォルトロガーを「ビッグ(またはスモール)ボックス」システムに追加する

要約

このアプリケーションノートでは、ネットワーク、通信、産業、医療分野の機器に「ブラックボックス」機能(不揮発性フォルトロギング)を追加する方法を説明します。また、障害分析の迅速化と明確化など、フォルトデータ記録の利点について概説します。

同様の記事が2011年6月24日にwww.how2power.comに掲載されました。

背景

航空機事故の原因調査に使用される装置を指す、「ブラックボックス」という言葉は、誰でもよくご存じだと思います。航空機のブラックボックスは、高度、速度、フラップ、方向舵の位置など、機体の動作状況に関する多数のデータポイントを収集します。また、事故直前のパイロットの操作や会話を記録します。事故直前の事象を記録したこの運航記録は、事故の根本原因を特定する上で不可欠な場合があります。

余談ですが、「ブラックボックス」というのは間違った呼び名です。航空機で使用される機器が黒色に塗られることはありません。この記録装置は、見つけやすいようにオレンジ色になっています。この装置の航空電子工学的に正しい名称は、「イベントデータレコーダ」です。

またもちろん、工学関係者なら、ブラックボックスと言えば、入力と出力が既知である一方、内部の動作が未知であるような装置を考えます。そのようなタイプのブラックボックスは、この記事の主題ではありません。

航空機以外でも、電子機器にデータ記録機能(ブラックボックス)を追加すると、極めて有益な場合があります。電子機器で「複合システムマネージャ」と呼ばれるブラックボックス機能は、ネットワーク、工業制御、医療、通信分野の機器でフォルトロギングを実現します。フォルトロギングの主な利点は、まったく明らかです。障害分析の迅速化と明確化が実現します。このアプリケーションノートでは、そうした機能を実装する方法を説明し、不揮発性フォルトロギングによって実現可能な利点について概説します。

電源管理機構

電源管理の面から見ると、ほとんどの場合、「ビッグボックス」や「スモールボックス」システムの内部の仕組みは非常によく似ているように見えます。ボックスがルータ、サーバ、基地局、光マルチプレクサ、プログラマブルロジックコントローラ(PLC)、磁気共鳴断層撮影装置(MRI)のいずれであろうと、それらはすべて一連のスイッチモード電源やリニア電源を内蔵しており、電圧、電流、温度や、場合によってはファン回転速度の監視が必要です。図1を参照してください。

図1. 標準的な電源構成
図1. 標準的な電源構成

不揮発性フォルトロギング

大規模なビッグボックスシステムでも小規模な「ピザボックス」システムでも、複合システムマネージャの主な機能は、多数の電源やファンを制御し、監視することです。監視機能には、過電圧や低電圧、過電流、想定範囲外温度、ファン回転速度異常など、システム障害イベントの監視が含まれます。障害の有無のチェックは、パラメータを検査してスレッショルドを超える変位がないかどうかを確認するなど、単純な仕組みです。システム動作中にリアルタイムデータを収集し、障害発生時に不揮発性メモリに保存すれば、イベントデータレコーダの機能を構成することができます。図2は、そのようなシステムを示しています。

図2. 多数の電源やファンを対象にした不揮発性フォルトロギングシステムのファンクションダイアグラム
図2. 多数の電源やファンを対象にした不揮発性フォルトロギングシステムのファンクションダイアグラム

図2では、複合システムマネージャが多数のシステムの電圧、電流、温度、ファン回転速度に関するデータを継続的に収集します。航空機のブラックボックスと同様、最新のパラメータデータ(たとえば、最新の500ms~1sのデータなど)が常時、周期的に収集されます。障害が発生すると、その時点でのシステムのスナップショットが永続的に記録されます。障害発生直前の500ms~1sのシステム動作を調査できれば、障害の原因やシステムへの影響を理解する上で不可欠な情報が得られます。そのデータの調査から、時系列を再構成し、相互依存性を特定することができます。理想的には、複合システムマネージャで複数の障害発生を記録すべきです。システムが緊密に結合され、相互依存関係にあるため、1つの障害を原因として複数のシステム障害が相次いで発生することが少なくありません。したがって、障害の根本原因を特定するには、すべてのデータを取り込むことが重要です。さらに、不揮発性ストレージが大容量であれば、指定範囲外のシステム動作を示すだけで、破局的とまでは言えないようなイベントも蓄積することができます。こうしたデータの蓄積は、保証の要件が満たされているかどうかを確認する上で重要となる場合があります。

1つの例

図3に示したシナリオを考えます。1つの電源が障害を起こし(ステップ1)、電圧、電流、温度を常時監視している複合システムマネージャの1つによってフォルトが検出されます。その複合システムマネージャがただちにシステム内の他のマネージャに通知するため、各マネージャは必要に応じて措置を講じることができます(ステップ2)。システムの要求に応じて、複合システムマネージャが連携して電源やファンをシーケンスオフします(ステップ3)。システムの電圧、電流、温度、ファン回転速度に関する最近のデータすべてが、各複合システムマネージャ内にあるオンボードのブラックボックスにロギングされます(ステップ4)。データは不揮発性メモリに保存されるため、将来、それらのデータをいつでも(現場から返却されたあとでも)引き出して、障害の原因を突き止めることができます(ステップ5)。

図3. ブラックボックスによるフォルトロギングのシナリオ
図3. ブラックボックスによるフォルトロギングのシナリオ

不揮発性フォルトロギングの利点

不揮発性フォルトロギングには、数多くの利点があります。現場の機器で障害発生時の事象を追跡できれば、障害分析チームは、障害の根本原因をすばやく分析して正確に特定することができます。ユーザーは当然ながら機器の障害の原因を早く知りたいと考えるため、こうしたトラブルシューティングによって顧客との関係が改善します。また、メーカーが潜在的な欠陥を早期に認識できれば、それだけ早く問題を是正し、将来発生する可能性がある障害のコストを節約することができます。この点でも、顧客の満足度が保たれ、機器の総合的な信頼性が向上します。不揮発性フォルトロギングでは、顧客が機器を指定の動作範囲外で使用していたかどうかも確認することができます。そうした運用は、製品保証の対象外となる場合があります。現場の障害データを継続的に収集することによって、サプライヤの品質問題や設計手法の弱点が明らかになるため、将来の製品の信頼性を向上させることができます。

複合システムマネージャ

マキシム・インテグレーテッド・プロダクツは、サーバなどのビッグボックスシステムとネットワークスイッチなどのピザボックス設計の双方に対応した、広範な不揮発性フォルトロギングを内蔵した多数の複合システムマネージャを提供しています。図45を参照してください。

MAX34440は、最大6つの電源を制御し、監視します(図4)。MAX34440は、電源のシーケンシングとマージニングを実現し、電圧、電流、温度に問題がないかどうかを監視します。複数のMAX34440デバイスを並列化すれば、システム内に存在するすべての電源を処理することができます。MAX31785は、最大6つのファンを制御し、監視します。MAX34440と同様、複数のMAX31785デバイスを使用すれば、必要な数のファンすべてに対応することができます。

図4. MAX34440とMAX31785を使用したビッグボックスシステムの設計
図4. MAX34440とMAX31785を使用したビッグボックスシステムの設計

マキシムは、ネットワークスイッチなど、より小規模なピザボックス設計に対応した複合システムマネージャも提供しています。MAX34441は、最大5つの電源に加えて1つのファンをサポートしています(図5)。設計の柔軟性を最大限に高めるため、複数のMAX34441デバイスを並列化したり、複数のMAX34440やMAX31785デバイスと組み合わせて使用したりすることができます。

図5. MAX34441を使用したピザボックスシステムの設計
図5. MAX34441を使用したピザボックスシステムの設計

価値ある提案

ネットワーク、工業制御、医療、通信分野の機器にブラックボックスのフォルトロギングを導入すれば、障害分析の迅速化と明確化を実現することができます。それは、障害対応の迅速化や製品の長期的な高信頼性の確保によって、顧客満足度の向上をもたらします。