判断优先级是可达性 -> 路由 -> 服务本身。首先从多个外部节点对目标IP做ping/traceroute,若全球或多节点都不可达,可能是英国服务器故障或机房故障;若只有部分节点受影响,可能是跨境链路或ISP问题。其次检查DNS解析,使用公共DNS(如8.8.8.8)与本地解析比对,若解析异常则定位DNS配置或DNS服务被污染。最后通过端口扫描(例如80/443)和应用层健康检查(HTTP响应头、API心跳)确认是主机网络层还是应用层故障。
标准流程包含:1)确认与分级:快速判断影响范围并按SLA分级;2)收集证据:日志、监控指标、路由、BGP变更、告警;3)隔离范围:切换流量至备用节点或CDN以限缩影响;4)定位根因:按“网络->主机->应用->依赖”顺序逐层排查;5)修复与回滚:应用补丁、重启服务或恢复快照,并验证;6)通报与备案:向业务方与运维团队同步恢复进度与影响边界。每一步都要有时间戳与负责人以便事后复盘。
推荐使用外部合规化探针(RUM/Synthetic)、MTR/traceroute、tcpdump、systemd/journal、应用日志聚合与链路追踪(如Jaeger/Zipkin),以及CDN/Load balancer的实时状态页。
首要关注用户感知类指标:页面加载时间、API响应时间、错误率(4xx/5xx)和支付链路成功率。其次是基础设施指标:主机CPU/内存/磁盘I/O、网络丢包率、接口连接数和TLS握手失败率。第三是依赖链健康:数据库连接池利用率、缓存命中率、第三方支付/物流API可用性。设置SLA/SLO并配置智能告警(分级、抑制噪音、按服务影响聚合)可以提高响应效率。
在英国节点部署本地探针,同时在欧洲主要用户所在地(如德国、法国、荷兰)布置外部合规探测,结合CDN和边缘监控得到端到端的可视化。
恢复演练分为桌面演练与实战演练:桌面演练用于验证流程与角色分工,适合频繁进行;实战演练(演练窗)在非高峰期进行,模拟真实故障并触发完整SOP。演练要有明确目标(例如切换到DR站点、恢复数据库主从、验证支付链路),预定义成功标准与回滚条件。演练过程中记录时序、决策点与瓶颈,演练结束后快速进行AAR(事后审查)并将改进项纳入运行手册与自动化脚本。
建议每季度至少一次桌面演练、半年一次实战演练。尽可能将切换流程自动化(基础架构即代码、流量切换脚本、数据库故障转移脚本),减少人为操作失误。
权衡要基于业务优先级与损失评估(RTO/RPO与业务中断成本)。对核心业务(如下单、支付)采用热备+同步复制,保证低RTO与RPO;对非核心分析或日志系统可用冷备+异步复制以节省成本。使用共享资源(跨项目DR)和云弹性伸缩以降低闲置成本,采用分区化灾备策略(核心服务高可用,次要服务容忍降级)是常见折衷方案。同时建立成本可视化与定期演练确保在预算内达成恢复目标。