题图来自于NextDay
「小洞不补,大洞二尺五」,具体出处不详。
意思是有些小问题听之任之,会不断放大,最后需要耗费高于之前几倍甚至几十倍的物力精力去弥补。
人都是有惰性的,从某些方面来说,正是因为「懒」才催生了科技的进步,想想如今互联网缔造的各种便利,几乎都是为「懒人」准备的。
程序员也许是最「懒」的人群,把繁杂琐碎的人工操作丢给计算机去完成,他们要做的只是一次性把逻辑设计出来,转换成机器语言。
所以「懒」的属性不一定就是贬义词。
但是作为人类的天性,遇到困难就想拖一拖,得过且过,真到了过不了的时候,被逼无奈只好硬着头皮去解决。
在运维团队中尤其明显。如果不能在平时的运维工作中及时查缺补漏,采取有效措施,那么原本很小的问题,因为业务环境的变化,可能会变成大问题。
用户反映自动化程序最近跟不上业务量的增长,总有滞后的情况发生。找了日志过来分析发现,主要是由于处理某种加密文件出错导致进程中断引起的问题,运维的小伙伴找到了原因但没有彻底解决,只是采取了某种临时性的替代方案,并不能治本。
时间有累积效应,特别是当量增大时,问题就会凸显出来。要彻底解决这个问题,就必须要找到能处理加密PDF文件的方法,经过多种尝试之后,最后终于找到一款支持命令行工具的插件,能处理加密文件并且效率翻倍,从此再也不用担心处理能力了。
所以当问题还很小的时候,如果我们能够及时发现,那么将拥有相对充足的时间去思考解决方案,而如果一直无视,等到问题越来越严重之时,时间紧迫,同时对应急处理能力的要求非常高。在这些高压之下,要保持沉着冷静并且还能迅速想出应对之策,并非易事。
当然,有些人就是应变能力很强,比如擅长危机公关的,需要在短时间内想出合适的对策。对这个行业不了解,但是外行看来觉得很厉害,就像是救火队员。但是大多数人遇到的大多数情况,其实都是从小问题演变而来,而且这其中的大多数小问题都是可见的,只是有时候被我们主动忽略不计了。
我在 防治之道 中曾提到扁鹊的故事,由此引发的关于「事前」「事中」「事后」控制的讨论。最理想的状态是「事前」控制,把问题扼杀在摇篮里,与「小洞」是同样的道理。虽然看上去好像是 Hard 模式,我们需要时刻关注问题的状况,通过敏锐的观察力及时发现问题,并及时制定应对的策略,防止事态进一步发展。但其实这是相对 Easy 的模式了,我们有足够的时间和精力来做准备,有了时间,我们甚至都可以有个几次试错的机会,以找到最佳的解决方案。
但是,有好多事情,并不是我们做了认为万全的准备之后就能完美解决,说不定这个小洞补上之后,其他地方又开始破洞了。就像是这次来势汹汹的超强台风,预报足够准确,精确到几点登陆、登陆哪里,可以提前安置可能受灾地区的居民,但仍然无法100%规避伤亡,对于城市交通的影响虽然已经极力降低,但路面积水、交通停滞还是不可避免,而这些在台风到来之前是无法100%预知的,只能在过程中不断去监测、去解决。
那么,最理想的状态也许是,尽可能早地补好小洞,同时时刻准备着迎接新的洞的出现,不管是事前、事中,还是事后,有一句话是没错的,不管怎样都要行动起来。
发送给作者