云服务器宕机应急与快速恢复清单
一、先稳住的三件事
- 先看官方状态页/站内信/短信/邮件,确认是否平台侧可用区(AZ)故障或计划维护;这类场景通常无需频繁重启实例,耐心等待迁移恢复即可。
- 立即在控制台确认实例生命周期与事件:实例是否为运行中、是否欠费停机、是否有硬件维护/迁移事件。
- 不要急于重装系统或重置磁盘,优先通过VNC/串口控制台获取“上帝视角”,避免二次损伤。
以上动作能在1–3分钟内判断“平台问题/账号问题/实例内部问题”,决定后续策略。
二、五分钟分层定位法
- 网络连通性
- 基础:ping 公网IP;telnet 公网IP 22/80/443 验证端口。
- 路由:检查安全组入/出站是否放行 ICMP 与业务端口;核对 VPC 路由表是否指向正确网关;多 AZ 时核查对等连接/专线状态。
- 进阶:Linux 用 traceroute、Windows 用 tracert 定位卡点;必要时用 mtr 长时间采样丢包与延迟。
- 实例状态与控制台
- 若实例异常或疑似卡死,先在控制台执行强制重启(仅作兜底)。
- 若磁盘显示脱机,排查是否被误删或配额超限。
- 资源与系统
- 监控/系统命令:top/htop、iostat -x 1、df -h、du -sh * 定位CPU 100%/内存 OOM/磁盘满。
- 日志:/var/log 下查 syslog/auth.log;应用日志如 Nginx error.log;容器用 kubectl logs 查看。
- 依赖与端口
- 用 netstat -tulnp 检查服务是否在正确端口监听;数据库/缓存用 telnet 直连测试连通性。
- 快速判断表
| 症状 | 优先检查 | 最快恢复动作 |
|---|
| 完全无法访问 | 安全组/路由/NIC | 临时放行端口或切换 EIP 到健康实例 |
| 能 ping 通但端口连不上 | 安全组/监听/应用进程 | 控制台重启服务或实例 |
| 控制台可登录但系统卡死 | CPU/内存/磁盘 | 终止异常进程/清理磁盘/强制重启 |
| 启动失败/只读文件系统 | 启动日志/文件系统 | 救援模式/单用户模式修复或挂载到临时实例抢救数据 |
以上步骤覆盖网络、计算、存储、应用四层,能在5分钟内把问题收敛到“网络/实例/资源/依赖”中的一类。
三、常见场景与恢复动作
- 场景A:平台或可用区级故障
- 动作:等待平台迁移/恢复;若有跨 AZ部署,切换 SLB/Nginx 流量到健康 AZ;静态资源可启用 CDN 回源。
- 数据风险:使用云硬盘的数据一般不受影响;本地盘数据随实例宿主机,风险高。
- 场景B:实例“软”故障(资源耗尽/进程卡死)
- 动作:通过 VNC 登录,top/htop 定位异常进程,清理日志/临时文件,必要时控制台强制重启。
- 风险:强制重启可能导致未落盘数据丢失,关键业务需有事务与持久化策略。
- 场景C:系统盘/文件系统损坏
- 动作:优先挂载故障盘到临时实例抢救数据,再修复原盘或基于快照/镜像重建;必要时进救援/单用户模式修复。
- 风险:操作不当可能扩大损伤,务必先备份再修复。
- 场景D:依赖服务故障(数据库/缓存/下游API)
- 动作:启用熔断/降级,临时关闭非核心功能;检查连接池、超时、DNS 与网络连通性。
- 场景E:本地盘故障或数据盘异常
- 动作:立刻备份可访问数据;确认是否触发短期保全窗口;后续迁移到云硬盘并完善快照策略。
- 兜底方案
- 从最近快照创建新实例;基于自定义镜像快速重建;必要时联系云厂商技术支持获取诊断包。
以上策略覆盖从“平台到实例、从系统到应用”的主流故障面,兼顾RTO/RPO与数据安全。
四、数据会不会丢与如何保住
- 使用云硬盘(云盘)的数据通常具备持久化能力,实例迁移/重启一般不会丢数据;本地盘/临时盘与宿主机绑定,实例释放或故障即可能永久丢失。
- 关键动作:
- 立刻对可访问磁盘做快照或离线拷贝;
- 将重要数据迁移到云硬盘或托管数据库(RDS);静态资源放入对象存储;
- 实施3-2-1 备份策略(3份副本、2种介质、1份异地/跨地域)。
- 恢复优先级:先保数据,再修复/重建实例,最后回切流量。
以上做法能显著降低数据丢失概率,并提升恢复速度。
五、预防与演练清单
- 架构与冗余
- 多可用区部署 + 负载均衡/健康检查自动剔除异常节点;核心业务尽量无状态化,会话/文件落地到外置存储。
- 监控告警与日志
- 设置关键阈值:如 CPU>85%、内存>90%、磁盘>95%、HTTP 5xx>1% 等;集中收集系统/应用日志与链路追踪,做到可观测与可回溯。
- 备份与灾备
- 开启自动快照与跨区域复制;定期故障注入/灾备演练,验证切换流程与 RTO/RPO。
- 变更与合规
- 所有操作走工单/变更单并记录;熟悉云厂商 SLA(如可用性≥99.95%),故障时按流程申请补偿。
以上措施能把“被动救火”转为“主动防御”,显著降低宕机概率与影响面。