--年--月--日 (--) | Edit |
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
2017年03月04日 (土) | Edit |
Amazon S3の大規模障害は人為的ミスが原因
http://itpro.nikkeibp.co.jp/atcl/news/17/030300696/?itp_pickup
AWSの報告によれば、当時、S3の決済システムの問題を修正するために、S3チームが作業にあたっていた。決済システムのサブシステムを構成する数台のサーバーを停止する目的で、特権を認められたチームメンバーが手順書に従ってコマンドを入力したが、コマンド入力にミスがあり、意図したより多くのサーバーを停止させてしまった。他の重要なサブシステムにも影響が広がり、システム全体を再起動しなければならなくなった。S3は、顧客にほとんど影響を与えずにシステムの不具合や停止に対応するデザインになっており、これまでトラブルなく運用できていた。システム全体の再起動は経験がなく、この数年の急成長でシステムが巨大化していたため、「予想以上に再起動に時間を要した」とAWSは説明している。再起動している間、S3はリクエストを処理できない状態に陥った。S3のAPIが利用不可能になったため、同リージョン内の他のサービスも影響を受けた。   午後1時54分、S3は通常運用に復帰し、他のサービスも復旧し始めた。なお、稼働状況を表示するダッシュボードの管理コンソールもS3を使用していたため、午前11時37分まではダッシュボードのステータス表示も更新されなかった
なんと、そんなことが原因だったのか・・・。盛大にやっちまったなー。つーか、システムの再起動の経験がなかったことにちょっとびっくりですね。

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。