应急事件处置中的权衡

「盖闻两害相较,则取其轻,与其使察、绥两省,同为日有,不如以一省付之共党之为害轻也。」

章炳麟《答某书》

昨晚是一个酸爽的夜晚,并不是因为大家熟知的520或是什么,而是因为一起讨论处理了2个半小时的网络硬件故障。

半夜1点半接到应急会议电话,某台网络接入交换机的某系网络访问关系失效,处置需要重启造成网络中断5-10分钟,这样就将影响与这台交换机连接的8台物理机几十台虚拟机上的正常业务。如果不处置,则交换机的故障范围可能会扩大,并且因为是单点运行,更大的故障也随时可能会发生。

作为网络处室,发现故障第一时间恢复处置是本能的反应。

作为业务运维处室,任何可能造成业务中断或影响的故障都要尽量避免。

因此,就想到开篇的这句俗语「两害相权取其轻」。作为公司的IT部门来说,支持业务的正常运行是最重要的,即便在网络设备单点运行的巨大风险之下,我们仍旧选择了保持业务连续,并在业务低峰的时候进行网络故障的处置。

最近看了《凤凰项目》这本书,书中提到了DevOps的「三步工作法」,其中首要的问题就是要确保业务价值流持续不断的从左到右进行流动。书中主人公每每被提醒首要的任务是保证业务,这就是IT的价值所在,最最最重要的就是保障业务持续运行。

昨晚的故障是工作过程中一个比较容易抉择的场景,在工作或生活中,经常会有类似的选择题。例如开发某个功能时,技术人员往往希望开发时间充足、测试充足,但是业务人员往往希望响应迅速,因为市场机遇瞬息万变,一旦错过就抓不住风口了。

面对种种的需要权衡的场景,我们每个人都应当从自己的角度跳出来,从部门、公司、行业、国家的层面不断提升考虑,往往就能够得到比较好的答案。

感谢你认真的看到了文章的最后,最近腾讯云+社区在举办杂货摊第三季的活动,只要扫描登陆云+社区,就有机会抽到腾讯公仔、U盘和机械键盘,希望大家能通过扫码帮我助力,也能够有运气抽到自己想要的礼品,要知道「乐于助人的同学运气总不会差」。

cocowool

A FULL STACK DREAMER!