从公司收益的视角审视,系统不稳定可能会引发直接损失。例如,当系统突然出现故障导致交易中断时,可能造成交易款项的紊乱、资金的滞留或损失,这不但会阻碍当前交易的顺利完成,还可能诱发一系列财务纠纷与赔偿事宜。同时,订单损失亦不容小觑。系统的不稳定会导致客户下单失败、订单处理延迟或出错,促使客户取消订单,进而影响公司的业务量。长此以往,必将对公司的盈利能力和发展前景形成沉重打击。
从用户体验的角度出发,系统不稳定可能引发热搜,带来社会舆论的巨大压力。如今社交媒体发达,用户在遭遇系统故障时极易在网络上表达不满,引发广泛的关注和讨论。这不仅会损害公司的品牌形象,还可能导致潜在客户对公司的产品或服务产生疑虑。此外,用户对系统的信任感会大幅降低,他们会对公司的技术实力和服务质量产生质疑。这种不稳定还会直接影响用户的使用,比如页面加载缓慢、功能无法正常使用、数据丢失等问题,都会令用户感到沮丧和不满,进而降低用户的忠诚度和使用频率。
常见的系统故障种类多样,涵盖变更类、容量类、依赖类、固件类和安全类等。
变更类故障通常是由于系统更新、配置更改或软件升级过程中出现的错误导致的。比如,在更新系统版本时,新的代码可能与原有的系统架构不兼容,或者配置参数设置不当,从而引发系统功能异常或性能下降。
容量类故障往往是因为系统无法承受预期的负载而产生的。随着业务的增长,如果系统没有及时进行扩容或优化,当访问量突然大幅增加时,系统可能会出现响应迟缓、服务中断甚至崩溃的情况。
依赖类故障则是由于外部依赖的服务或组件出现问题而影响到整个系统的正常运行。例如,系统依赖的第三方接口出现故障、网络延迟过高或者外部数据源不可用,都可能导致系统的部分或全部功能无法正常使用。
固件类故障涉及硬件设备的固件问题,比如硬件驱动程序的错误、固件版本过旧或存在漏洞,可能导致硬件设备工作异常,进而影响系统的稳定性。
安全类故障包括黑客攻击、数据泄露、恶意软件感染等安全事件。这些问题不仅会导致系统瘫痪,还可能造成用户数据的丢失和泄露,给公司和用户带来巨大的损失。
系统可用性可以通过特定的指标来精确衡量,其中一个重要的公式为:可用性 = MTTR / (MTTF + MTTR) 。在这个公式中,分母是 MTTF(Mean Time To Failure,平均故障间隔时间)加上 MTTR(Mean Time To Repair,平均修复时间),分子是 MTTR。
以一个具体的例子来说,如果一个系统平均每运行 60 分钟就会出现一次故障,那么 MTTF 就是 60 分钟。而每次修复故障需要 10 分钟,那 MTTR 就是 10 分钟。根据上述公式,该系统的可用性约为 14.29% 。
此外,常提及的“N 个 9”也是衡量系统可用性的重要指标。
3 个 9:99.9%的可用性,意味着(1 - 99.9%)× 365 × 24 = 8.76 小时,即系统每年的停机时间不得超过 8.76 小时。
4 个 9:99.99%的可用性,(1 - 99.99%)× 365 × 24 = 0.876 小时 = 52.6 分钟,表明系统每年的停机时间不能超过 52.6 分钟。
5 个 9:99.999%的可用性,(1 - 99.999%)× 365 × 24 × 60 = 5.26 分钟,意味着系统每年的停机时间不能超过 5.26 分钟。
在探讨如何提升系统稳定性之前,先为大家分享一则有趣的故事——扁鹊三兄弟的故事。
魏文王曾问扁鹊:“你们兄弟三人都是医生,谁的医术最高明?”扁鹊回答:“大哥医术最高,二哥其次,我最差。”魏文王感到疑惑,惊讶地问:“那为什么只有你名动天下,他们两个一点名气都没有?” 扁鹊解释道:““我大哥的医术之高,可以防患于未然,一个人的病未起之时,他一望气色便知,然后用药将其调理好,所以天下人都以为他不会治病,他便一点名气都没有。我二哥的能耐,是能治病初起之时,防止别人酿成大病。病人刚开始感冒咳嗽时,他就用药将人治好了,所以我二哥的名气仅止于乡里,被人认为是治小病的医生。我呢,就因为医术最差。所以一定要等到这个人病入膏肓、奄奄一息,然后下虎狼之药,起死回生。所以都以为我的医术最高明,名气传遍诸侯各国。想想看,像我大哥这样治病,人的元气丝毫不伤,我二哥治病,这个人元气稍有破损就补回来了,像我这么治病呢,命是捞回来了,可元气大伤,您说,我们家谁医术明?”
这个故事与提升系统稳定性存在奇妙的关联,提升系统稳定性的关键举措——事前预防、及时发现、快速恢复,恰好能够与扁鹊三兄弟相对应,且看以下解析。
扁鹊大哥在病未发作时就将其消除,我们在提升系统稳定性时,也要向扁鹊大哥学习,全力做好预防与控制工作,将故障发生的可能性扼杀在萌芽中。为此,我们需要做到如下几点。
1.1.1 隔离
在系统设计时,确保不同功能之间互不干扰。比如,将核心业务逻辑与非关键的辅助功能进行分离,即使辅助功能出现问题,也不会影响核心业务的正常运行。
1.1.2 幂等
无论重复多少次,结果都应保持一致。例如,在电商系统中,多次提交相同的订单请求,系统都应只处理一次,避免重复下单造成混乱。
1.1.3 限流
当流量过大时,自动拦截部分请求,以保护服务的稳定性和可用性。比如,设定每秒处理的最大请求数,超过限制的请求将被暂时缓存或拒绝。
1.1.4 兼容性
在系统升级或引入新代码时,要确保新旧代码能够和谐共存。例如,在更新数据库结构时,要考虑到对旧数据的兼容处理,确保系统在升级过程中不会丢失或错误处理原有数据。
1.2.1 功能测试
严格检验新开发的功能是否符合预期。涵盖功能的完整性、准确性、性能等方面,确保新功能在各种场景下都能正常工作。
1.22 回归测试
通过对已有功能的重新测试,确保新代码确保新代码不影响至少不负面影响已有逻辑。
1.2.3 兼容性测试
验证在新功能加入后,系统是否能正常运行。例如,测试新的操作系统版本与应用程序的兼容性。
1.2.4 压力测试
在新功能上线之前,进行压力测试,评估系统是否能够承受预期的业务流量。最好是能把线上实际的流量录制下来,在待上线的代码上进行流量回放。
1.3.1 发布顺序
明确各个服务的先后发布顺序。某些基础服务必须先上线,其他依赖于它的服务才能正常运行。
1.3.2 灰度策略
逐步让新变化生效,如同让身体逐步适应新的环境或变化。比如,先让一小部分用户使用新功能,收集反馈并进行优化,然后再逐步扩大使用范围,降低问题的影响面。
扁鹊二哥在病症刚出现时就能迅速治愈,我们也要具备如他一般敏锐的洞察力和快速的反应能力,能够在系统出现小问题时就及时察觉并解决,防止问题进一步恶化。为此,我们需要做到以下几点。
2.1.1 关键逻辑添加日志
在编写代码时添加关键的日志。比如,最基础的对异常捕获后的日志,能够记录下系统出现异常时的具体情况;对下游服务调用的日志,可以追踪服务之间的交互过程;出入参日志,有助于了解数据的输入和输出情况;业务关键流程的日志,能够监控重要业务的执行过程。通过这些丰富的日志信息,一旦出现问题,就能迅速定位到故障点。
2.1.2 打点
系统主动上报数据到监控系统。比如,在电商网站中,实时上报用户的浏览行为、购买行为等数据,通过对这些数据的监控和分析,能够及时发现潜在的问题,如用户购买转化率突然下降、页面浏览时长异常等。
2.2.1 监控报警
配置全面的监控,涵盖系统的各个层面和关键指标,搭配上恰到好处的报警规则,当系统指标超过预设的阈值,如 CPU 使用率过高、内存占用过大、网络延迟增加等,能够及时发出警报通知相关人员,以便迅速采取措施。
2.2.2 日常巡检:
周期性主动探测各种链路是否正常,就像定期对身体进行全面的体检。比如,每天定时检查数据库连接是否正常、网络通信是否稳定、服务器负载是否均衡等,及时发现潜在的问题。
2.2.3 数据核对
上下游系统的单据进行核对,发现单系统内的潜在 bug 。比如,核对订单系统和库存系统之间的数据一致性,确保订单的处理和库存的更新准确无误。
扁鹊在病情严重时能够采取果断措施使其康复,我们在系统出现严重问题时,也要迅速采取有效的恢复措施,使其尽快恢复正常运行。为此我们需要做到如下几点。
3.1.1 工具建设
针对系统中可能存在的各种问题,预先开发检测或修复的工具,如同家中会常备一些常见疾病的药品一样。例如,开发修复数据库一致性的工具、优化系统性能的工具等,在出现问题时能够迅速使用这些工具进行处理。
3.1.2 容灾切换
在系统设计时,考虑到可能出现的严重问题,提前规划好快速切换流量和设施的方案。比如,建立备份数据库、备用服务器等,在主系统出现故障时能够快速切换,确保服务的连续性。
3.1.3 降级开关
在发生异常情况时,能够灵活地绕开或忽略某些非关键的错误情况,保证系统的核心功能不受影响。例如,在支付系统出现故障时,可以先暂停一些高级支付方式,只保留最基本的支付渠道,确保交易能够继续进行。
3.1.4 流控设置
通过对流量设置合理的上限,保护系统自身不被突然涌入的流量击垮。比如,根据系统的处理能力和资源状况,设定每秒或每分钟能够处理的最大请求数量,当流量超过上限时,进行适当的限流措施,以保证系统的稳定性。
3.2.1 限流
根据系统的实时运行状况和负载情况,动态调整流量限制策略。比如,当发现系统资源紧张时,进一步收紧流量限制;而当系统资源充足时,适当放宽限制,以提高系统的服务能力。
3.2.2 禁用
当某台机器出现严重问题,可能对整个系统造成更大影响时,直接让其停止提供服务。这样可以迅速隔离问题源,避免问题的扩散。例如,如果某台服务器频繁出现故障或响应异常,立即将其从服务集群中禁用,以保障整体系统的稳定。
3.2.3扩容:
当流量持续上涨,现有资源无法满足需求时,快速扩充机器资源来抗住流量压力。比如,通过增加服务器数量、扩展存储容量等方式,提升系统的处理能力。
3.2.4 回滚
当发现线上变更导致了问题时,能够迅速撤销之前的变更操作。因为系统中的变更可能多种多样,每一种变更都需要提前规划好回滚方案,确保在出现问题时能够快速消除影响,恢复到之前稳定的状态。
总之,提升系统稳定性,我们要借鉴扁鹊三兄弟的智慧,像扁鹊大哥一样在事前减少故障数量,像扁鹊二哥一样在问题还小时快速发现,像扁鹊一样在出现问题时迅速恢复。多管齐下,从预防、发现到恢复,全方位保障系统的稳定健康运行。