直面する前に知っておきたい!サーバーの大規模システム障害の原因・症状・対処法について

直面する前に知っておきたい!サーバーの大規模システム障害の原因・症状・対処法について

最近は、業務に必要なアプリケーションをクラウドへ移行する企業が増えてきました。
メールやグループウェア、ファイルストレージなど、どれも止まればエンドユーザーの業務に多大な支障をきたすサービスです。

こうしたサービスの多くは、数百、数千台のサーバから構成されている大規模システムです。一度大規模システムで障害が起これば、その影響ははかりしれません。

2012年に起こった、ファーストサーバの顧客データ大規模消失事故もまだ記憶に新しいと思います。

ここでは、大規模システムの障害のうち、特に顧客に影響が大きくなりがちなストレージシステムに焦点をあて、障害の原因や症状、対処法について考えてみます。

どんな障害が起こり得るのか

大規模システムの障害が起こる要因には、大規模な自然災害、停電、サイバー攻撃、システム負荷の急激な増加などの外部的要因の他、プログラムの不具合、運用時の人為的ミス、ストレージのハードウェア障害などの内部的要因があります。

これらの要因は、ときに互いに複雑に絡まりあって障害が発生します。特に、最初に発生した障害への対処を誤るという人為的ミスにより、さらに被害を拡大させてしまうこともあります。

NAS(Network Attached Storage)やSAN(Storage Area Network)、それらを統合したUnifiedストレージ、RAID構成ストレージ、またクラウドストレージなどのトラブルも、きっかけは単なるハードウェアの故障だったものが、他の複数の要因が影響して事態が深刻化していきます。

そもそも設計および構築時に、ハードウェア障害や操作ミスなどの想定可能なトラブルを見越した対策がなされているはずです。たとえばディスクの故障や深刻な操作ミスが起きた時には、運用系と別系統にあるバックアップからデータの復元対応が行われますが、それらの対応が想定通りに行われない事態も起こり得ます。

2012年のファーストサーバの事例でも、バックアップ系が本番系と切り離されておらず、本番環境でのトラブルがバックアップ環境に波及してしまったことが、影響が深刻化してしまった要因でした。

他にも、RAIDディスクで障害が起きた時にすぐに専門業者に依頼しないなど、初期対応を誤ることで大規模障害が発生します。

どんな人為的ミスがあるのか

大規模なストレージシステム障害の要因となる人為的ミスには、たとえば以下のようなものがあります。

  • ファイルの削除:ストレージシステムが必要とする設定ファイルなどが誤って削除された場合や、破損した場合、ストレージシステムが正常に動作しなくなり、障害を引き起こします。
  • パーティション設定の誤操作、論理ボリュームの誤操作:パーティションとは、ハードディスクを論理的にいくつの区画に区切ることです。また、論理ボリュームは複数の物理的なディスクをまとめて、仮想的に1つのディスクとして扱う技術です。
    高度なストレージシステムではハードディスクを効率的に扱うために、これらの技術を活用しています。操作ミスでこれらの設定が失われたり変更されたりすると、データに正しくアクセスできなくなり、障害が発生します。
  • バックアップの消失:障害が発生した場合に備えて用意されていたバックアップが利用できなくなると、事態が深刻化します。ユーザーデータのバックアップが消失すれば、そもそもストレージシステムとして意味を成しませんし、設定ファイルなどのバックアップ消失は、システムの稼働に影響を及ぼします。
  • データベースのトラブル:ユーザーのデータがファイルシステムではなくデータベースに保存されている場合や、ストレージシステムの動作にデータベースが必要な場合もあります。
    データベース管理中の操作ミスや、データベースファイルの破損、消失などが起こると、システム障害の原因となります。

障害が起きたら?現状維持を最優先する

では、大規模システムに障害が発生したらどうすればよいのでしょうか。
大規模なストレージシステムではRAIDやSAN、Unifiedストレージなどの高度な技術が使われています。RAIDディスクからのデータ復元には特殊な技術と経験が要求されますし、SANやUnifiedストレージの障害にはストレージだけでなくネットワークのトラブルシューティングスキルが要求されます。

焦って自身で復元を試みると、かえって状況を悪くする可能性があります。
それよりまずは現状把握に努めるべきです。システム全体の構成を把握したうえで、現在障害が発生している箇所と、その影響範囲を推定します。

障害の影響範囲と深刻度に応じて、障害によるリスクを受容して限定的にシステムを稼働させ続けるのか、それともいったんすべて停止するのか、判断が必要です。エンドユーザーにどう通知するのかなど、ステークホルダーへの対処も考えねばなりません。

つまり、システム自体の復元だけでなく、並行してやるべきことはたくさんあるのです。
ですから障害自体への対処は、プロに任せてしまいましょう。
その際、それ以上状況を悪くならないように現状を維持しつつ、復元会社へはシステムの構成や仕様の正確な情報を提供することが大事です。ある大規模なRAIDディスク障害の事例では、復元業者にRAIDレベルについての正確な情報が伝わっていなかったために、復旧作業に余分な時間がかかってしまったそうです。

大規模システム障害の復元実績のある会社を選ぼう

ステークホルダーが多いほど、大規模システム障害の影響は大きくなります。対処をあやまれば、社会的信用もすぐに失ってしまいます。

大規模システムの障害への対処に特殊な経験とスキルが必要であることは、前述したとおりです。障害発生時に、そうしたリソースを突然調達するのは困難ですし、障害を見越してあらかじめ用意しておくことも、コスト的には現実的ではありません。

それよりは、大規模システム障害の復元実績のある会社に依頼した方がよいでしょう。
ここでは、大規模システム障害のデータ復旧実績が豊富なデータ復旧会社を、ひとつご紹介します。

「アドバンスデザイン株式会社」
https://www.a-d.co.jp/datarecovery/highend.html
日本で初めてデータ復旧サービスを開始したという、「データ復元の老舗」ともいうべき会社です。
通常のディスク障害からのデータ復元のほか、データセンターなど大規模システムの障害からのデータ復元にも多くの実績があります。ストレージシステムだけでなく、アプリケーションサーバやデータベースサーバの復元実績もあるそうですので、安心してシステムを任せられます。

大規模システム障害の専用フリーダイヤルも用意されていますので、障害が発生したときは、まずお電話することをお勧めします。

ページトップへ

コンテンツ一覧

ここなら大丈夫!プロが教える優良データ復旧会社

データ復旧で後悔しないための知識を身につけましょう

自分でデータ復元を行うのが難しい方はデータ復旧会社に依頼しましょう

サイトマップ