計算機正常運行最大的威脅是什麼?是員工
之前有一個很老的笑話:「是人都會犯錯,但是要真正把事情搞砸,你還缺台計算機。」 現在情況正好相反了,現如今,數據中心設備的可靠性已經得到了極大的提升,反而是使用設備的人員素質沒能跟上,從而給計算機正常運行帶來了很大的威脅。
正常運行時間協會 對數千名 IT 專業人員一整年發生的故障事件進行了調查,得出結論表示絕大多數的數據中心故障是由於人為錯誤造成的,人為錯誤導致的故障率為 70%-75%。
而且有些故障很嚴重。調查發現,超過 30% 的 IT 服務與數據中心運營商經歷了他們稱之為是「嚴重服務退化」的停機事故。2019 年有 10% 的受訪者稱他們最近的事故造成的損失超過 100 萬美元。
在正常運行時間協會在 2019 年 4 月的調查中,60% 的受訪者認為,對於最近發生的重大停機事件,他們本可以通過更好的管理/流程或配置進行防止。而對於損失超過 100 萬美元的故障事件,這一數字躍升至 74%。
正常運行時間協會認為,導致故障事件發生的最終的錯誤不一定是員工,而是令人失望的管理。
「這個行業仍然嚴重依賴於人工去完成一些最基礎和最重要的工作,易受人為錯誤的影響,這一點無法避免,也許可做的防錯/防災措施很有限。」正常運行時間協會期刊的主編 Kevin Heslin 在一篇博客文章中寫道。
「然而,對這些故障問題的快速調查發現,故障持續存在的主要原因不是人為失誤,而是由於管理失誤導致,如針對員工培訓投資不足,相關政策執行不力,管理程序老舊,低估一名合格員工的重要性,這一系列的管理問題導致了故障停機。」 Heslin 繼續寫道。
正常運行時間協會指出,公司的 IT 基礎設施越複雜,特別是分散式特性基礎設施,可能會越容易增加簡單的錯誤層出不窮而導致業務中斷的風險。同時指出公司需要意識到基礎設施越複雜所涉及的風險就越大。
並警告說,在人員配備方面,不要以超過公司吸引和應用資源來管理基礎設施的速度擴大關鍵 IT 能力,並在影響關鍵任務操作之前意識到任何人員和技能短缺。
via: https://www.networkworld.com/article/3444762/the-biggest-risk-to-uptime-your-staff.html
作者:Andy Patrizio 選題:lujun9972 譯者:sthwhl 校對:wxy
本文轉載來自 Linux 中國: https://github.com/Linux-CN/archive