こてつのブログ

家電・ガジェットレビューをメインに役立つ情報をお届けします。

ニュースピックアップ

ANAシステム障害の原因はオペレーションミス?ベンダーの皆様、心中お察しします。

投稿日:

3月22日に発生したANAのシステム障害はひとまず復旧したようです。長期間の停止にならなかったことが不幸中の幸いですね。

全日空は23日、大規模な障害を起こした国内線の搭乗手続きシステムが、同日未明に全面復旧したことを明らかにした。

同社は原因究明を進める。

障害は22日午前8時20分ごろ発生。同11時半ごろ、空港での搭乗手続き機能は再開したが、旅行代理店で新たな予約を受け付ける機能は停止していた。

http://headlines.yahoo.co.jp/hl?a=20160323-00000027-jij-soci

原因解明はこれからですが、サーバーの連携部分で障害が起きていることから、負荷分散の機器設定が間違っていたのだろうと思われます。つまり、単純なオペレーションミスでしょうね。(追記:負荷分散装置内のメモリが故障したという話もでていますが、初期対応が遅れたという点ではオペレーションミスといって良いでしょうね。)

全日空の搭乗手続きシステムで22日午前に起きた障害は、同日午後も機能の一部が復旧せず、航空券の予約ができないなどの影響が続いた。同社の国内線146便が欠航、391便が遅延し計約7万1900人に影響した。複数のサーバー間でデータを共有する際に不具合が起きたとみられ、同社は23日朝の全面復旧を目指して作業している。

全日空の搭乗システムを使うAIRDO(エア・ドゥ)、ソラシドエア、スターフライヤーなどの各航空会社で少なくとも計35便が欠航、遅れも相次いだ。
全日空によると、22日午前3時45分ごろ、4台あるデータベースサーバーのうち1台が停止。復旧を進めたが、午前8時20分ごろ残る3台も停止した。

1台が稼働したため、午前11時半ごろに空港での搭乗手続きを再開。1台で全てのシステムを動かす能力はあるが、旅行代理店での予約機能を停止して対応した。(2016/03/22-21:58)

http://www.jiji.com/jc/zc?k=201603/2016032200879

大変なのは障害発生中よりも復旧した後

ANAの利用者にとってはもう終わった話ですが、システムベンダーの人たちにとってはここからが大変なのです。外から見ると障害の復旧作業が一番大変かのように思いますが、実はそうでもありません。当然「早く復旧させないと」というプレッシャーはありますが、淡々と作業を行っていくしかやることが無い分、いろんなことを考えずに済むのです。

24時間稼働しているサービスに障害が発生した場合は、もちろん徹夜作業なので身体的にはキツイですが、こういう時は不思議なもので、ある意味でお祭り騒ぎ(影響を受けた方々には悪いですが)の中にいる気分になるため、意外と乗り切れたりします。

むしろ、大変なのは復旧の報告を出した後ですね。「改善防止策を考えなきゃ」「影響を与えたユーザーに謝りにいかなきゃ」といったネガティブな思考が頭をめぐり始めるのです。いや、実際に謝りに行かないといけないんですけどね・・・。

新卒時代に経験した過去最大のシステム障害

私が今でで経験した中で一番大きなシステム障害は、今でもはっきり覚えているくらいインパクトのある状況でした。とはいえ私自身何かをやったわけてはなく、ただ見ているだけでしたが・・・。

10年ほど前、私が入社した会社では新人研修の一環でデータセンターの夜間オペレーションを見学するというものがありました。サーバー構成とオペレーション業務の説明を聞いた後は、サーバールームと監視室でのんびり。「楽勝だな」と思っている時に、大きな障害が発生したのです。

ざわ・・・

オペレーターの人たちが大きな会議室に集まり、私たち新人は休憩室で待機することに。といっても隣の部屋なので、すぐそばで異常事態が起きていることは分かるんですよね。

しばらくすると、会社の部長や役員が次々と登場。深夜2時ですよ。そして、先方のお偉方も登場。どうやら聞くとこによると、メインフレームが故障してしまい先方の夜間業務が止まっているとのこと。これはヤバ過ぎる・・・。

その後、エンジニアによる復旧作業、状況監視、再発防止策の協議が朝方まで続きました。私たち新人はその様子を覗き見するくらいしかできず、そのまま帰宅という流れになりました。

後日談を聞いたところ、損害賠償するかしないかというレベルまで話が及んだらしいです。そして、関係者によるお詫び行脚がしばらくの間続いたことは言うまでもありません・・・

元エンジニアとして一言いいたい

こういうシステム障害が起きると、必ずシステムベンダーの責任が問われたり叩かれたりするのですが、これについては一言いいたいところ。

そもそもの話になりますが、「システムは100%稼働して当たり前」という認識の人が多すぎると思います。システムといっても作っているのは人間なのですから、どう努力しても一定確率で不具合が起こるわけです。その認識を持ってもらえるだけで、多くのエンジニアは救われるでしょう。

ANAシステムの件については、もちろん原因の追求と再発防止策の徹底が必要ではありますが、まずは「よく一日で復旧させてくれた」という考え方をもって中のエンジニアを労っていただけると嬉しいです。

徹夜で作業して下さった方々、お疲れ様でした。

 

この記事が気に入ったら
いいね!しよう

最新情報をお届けします

Twitter でこてつをフォローしよう!

-ニュースピックアップ
-, , , , ,

執筆者:

関連記事

懸賞・診断アプリ終了のお知らせ?Facebookのファンゲート機能が廃止へ

Facebookユーザーには嬉しいお知らせです。 フェイスブック、「いいね!」をせがむアプリを禁止に Facebookの「ファンゲート」という機能を使うと、「いいね!」を押す/押さないかでその後に続く …

これって必要…?東京都教育委員会が「SNS東京ルール」を策定

何でこういう意味の無いことを平気でやっちゃうんでしょうかね・・・。 「SNS東京ルール」 の策定について(東京都教育委員会) 児童・生徒を守る為のルール このルールが作成された背景としては、SNS上で …

日揮の花見騒動で注目の「場所取り代行」というグレーな商売

横浜にある掃部山公園で起きた日揮社員による不法占拠騒動、シートの撤去をもって終了・・・かと思いきや、別の会社が同じような手口で占拠し始めた模様です。 http://kabumatome.doorblo …

日取りが近くなると挙式の費用が安くなるサービスを「Wedding Now」が提供開始

ウエディング業界はまだまだ新規参入の余地がありそうですね。気になるプレスリリースを見かけたのでご紹介。結婚を控えている人はチェックしてみてはどうでしょうか。 業界初!日取りが直近になればなるほど安くな …

DMM.comが世界初の「ロボットキャリア事業」をスタート!

DMM.comの勢いが全く衰えません。 DMMがロボット関連事業に参入–“キャリア”となり、2017年「売上100億円」めざす 最初は「え、何で?」という風に思いましたが、この辺りを読むと …

こてつ(@tepkode

広島生まれ。岡山在住のサラリーマンブロガー。ガジェット・Web・アプリなどITモノをメインに、時事ネタやオピニオン発信などを行っています。プロフィール詳細や各種お問い合わせはこちらまで。